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附录 二 词汇 表 


RIAN, FER MAE 
谨 以 此 书 纪念 所 罗 门 .哥伦布 


TEE PP 
面 对 科 扩 扬 点 ， 我 们 的 判断 与 选择 


EE 
微软 小 冰 之 父 
微软 (亚洲 ) 互联 网 工程 院 副 院 长 
在 近年 来 陆续 出 版 的 、 解 读 人 工 智能 技术 与 趋势 的 许多 书籍 中 ， 
这 是 一 本 不 可 多 得 的 好 书 。 它 的 阅读 过 程 令 人 恰 翌 ， 涉 及 的 知识 深度 
又 比较 恰当 。 因 此 ， 即 使 古 不 具备 相关 领域 知识 背景 的 读者 ， 也 能 够 
轻松 地 读 完 它 。 人 们 完全 可 以 利用 “碎片 时 间 ” 来 研读 这 本 30 多 万 字 的 
大 作 ， 从 而 集中 了 解 到 与 人 工 智能 相关 的 技术 分 文 、 组 织 人 物 与 重要 
事件 。 在 人 工 智 能 热度 很 高 的 当下 ， 这 本 书 的 价值 在 于 ， 帮 助 读者 建 
立 一 种 相对 贴近 事实 的 科学 观 。 
读者 可 以 把 这 本 书 当 作 一 本 有 关 人 工 智能 的 简明 历史 来 看 待 。 人 
工 智能 是 科技 王冠 上 的 销 石 ， 而 深度 学 习 代 表 了 其 中 一 个 承 上 局 下 的 
重要 阶段 。 深 度 学 习 脱 胎 于 科学 家 们 六 十 多 年 前 开始 的 人 工 智能 研 
完 ， 其 目 身 的 概念 形成 ， 到 落地 开花 ， 则 只 有 十 多 年 的 光景 。 与 过 去 
相 比 ， 深 度 学 习 极 大 地 推进 了 人 工 智 能 各 个 分 文 课题 的 发 展 速 度 ， 与 
未 来 相 比 ， 我 们 今天 所 取得 的 一 切 成 采 ， 都 是 非常 粗糙 的 ， 注 定 会 被 
更 好 的 成 采取 代 。 因 此 ， 了 解 深度 学 习 ， 束 如 同 站 在 一 个 关键 的 季 点 
上 回 时 间 河 流 的 上 下 游 看 ， 一 览 无 余 。 
我 相信 ， 不 同 的 人 会 从 这 本 书 中 得 到 不 同 的 收获 。 总 体 而 言 ， 这 
本 书 有 助 于 在 我 们 心目 中 更 加 请 晰 准确 地 绘制 人 工 智能 的 未 来 图 景 。 


从 某 种 意义 上 说 ， 所 有 的 过 去 亦 都 昭示 了 未 来 ， 但 我 更 建议 读者 以 最 
轻松 的 心态 来 阅读 它 。 因 为 这 样 ， 能 够 让 读者 以 更 加 客观 公正 的 视角 
去 检阅 人 类 与 机 旭 的 能 力 短 板 与 优 长 一 一 你 可 以 从 本 书 中 了 解 到 那些 
令 人 惊讶 ， 甚 至 于 有 些 担 忧 的 科技 进展 ， 大 致 了 解 它 们 背后 的 原理 。 
这 展现 了 人 工 智能 相对 于 人 类 而 言 的 单方 面 优势 。 另 一 方面 ， 你 也 能 
看 到 许多 真实 事例 ， 反 映 了 人 工 智能 相对 于 人 类 而 言 的 “ 尝 撑 ?”。 科 学 
与 科学 幻想 泾 涓 分 明 。 在 现实 中 ， 这 种 “笨拙 * 的 情况 往往 更 加 普 裔 。 
这 些 事例 有 时 令 人 怒 俊 不 茜 ， 它 恰恰 体现 了 我 们 人 类 的 大 脑 是 多 么 精 
妙 的 设计 。 

事实 上 ， 在 我 看 来 ， 当 下 最 令 人 仿 得 不 定 的 ， 并 不 征 人 工 智能 有 
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话题 。 虽 然 深 度 学 习 是 这 个 抛 点 的 主要 推动 力 之 一 ， 但 它 并 不 需要 为 
我 们 的 困扰 承担 贡 任 : 


. 选择 权 的 困扰 : 一 辆 无 人 驾驶 汽车 行驶 在 道路 上 ， 假 设 突然 
面临 必然 要 发 生 的 车 祸 ， 它 应 当 辣 左 撞 同 一 个 无 率 的 老人 ， 还 是 同 右 
撞 癌 一 个 无 就 的 壮年 ? 


` 决策 权 的 困扰 一 个 系统 可 以 基于 人 类 个 体 不 具备 的 广泛 即 
时 的 大 数据 ， 用 任何 人 无 法 企及 的 速度 ， 迅 速 做 出 某 个 决策 。 这 样 的 
洞察 和 决策 力 ， 应 该 掌握 在 谁 的 手中 ? 


“工作 权 的 困扰 :， 一 项 基于 人 工 智 能 的 技术 可 以 比 人 类 以 更 好 
的 质量 和 速度 去 完成 某 项 生产 。 这 项 技术 应 该 归属 于 工厂 主 来 代替 工 
人 ， 还 是 应 该 归属 于 工人 来 帮助 工厂 主 更 好 地 完成 工作 ? 前 者 会 带 来 
失业 ， 而 后 者 有 望 市 来 更 高 的 工作 效率 。 

“ 社会 层面 的 困扰 :， 一 个 面向 情感 的 人 工 智能 机 器 人 帮助 一 个 
人 解决 孤单 ， 却 使 他 主动 减少 了 与 他 人 的 社交 沟通 。 这 种 陪伴 完 葛 是 
在 帮 他 解决 问题 ， 还 是 制造 了 更 多 的 问题 ? 


“ 技术 滥用 的 困扰 一 项 技术 可 以 帮助 任何 人 打造 与 他 们 高 度 
相似 的 语音 ， 制 造 出 来 的 声音 ， 令 他 的 家 人 也 难 辨 真 假 。 这 样 的 技术 
会 不 会 被 别有用心 的 人 用 于 犯罪 例如 诈骗 电话 ? 


不 知 不 觉 间 ， 这 些 看 似 怕 远 的 事 ， 突 然 间 已 变 成 我 们 必须 要 面 对 
的 现实 情况 ， 而 我 们 也 已 经 在 上 述 一 些 场景 中 做 出 了 初步 的 抉择 。 其 
中 一 个 关键 因素 是 ， 人 们 稼 常 对 人 工 智 能 的 “智商 ?印象 深刻 ， 但 往往 
忽略 了 : 人 工 智能 系统 化 的 优势 之 一 在 于 “大 规模 的 并 发 *。 因 此 ， 任 
何 一 种 以 上 技术 应 用 的 场景 ， 只 要 乘 以 巨大 的 人 口 ， 都 会 市 来 很 大 的 
影响 。 相 对 而 言 ， 在 围棋 游戏 中 顾 过 人 类 ， 其 实生 最 不 需要 担忧 的 
[fe 

在 微软 ， 我 们 最 近 成 立 了 与 人 工 智能 及 伦理 相关 的 组 织 ， 力 图 在 
当前 的 框架 内 去 发 现 尽 量 多 的 问题 ， 尽 可 能 在 早期 束 避 人 免 问 题 的 发 
生 。 微 软 在 人 工 智 能 领域 的 技术 和 产品 线 很 广泛 ， 因 此 我 们 做 过 的 执 
择 也 相对 较 多 。 这 些 抉择 往往 决定 了 我 们 在 有 能 力 的 情况 下 ， 主 动 放 
FERTA ° 

AARE HAREZ O o AA: 微软 小 冰 在 两 年 前 推出 拟人 的 
全 双 工 语音 电话 技术 (Full Duplex) 时 ， 我 们 就 制定 了 该 产品 的 伦理 
规则 ， 不 允许 在 用 户 不 知情 的 情况 下 ， 让 小 冰 伪 三 成 真人 去 拨打 电 
话 。 我 们 也 不 使 用 微软 小 冰 的 技术 去 从 事 呼叫 中 心 的 外 呼 业 务 ， 因 为 
它 存 在 被 壮 用 为 垃圾 广告 电话 的 风险 一 一 尽管 这 些 往 往 意 味 着 巨大 的 
商业 价值 。 今 天 ， 在 中 国 、 美 国 、 日 本 、 印 度 和 印度 尼 西 亚 ， 微 软 小 
冰 拥 有 近 7 亿 人 类 用 户 ， 如 果 她 在 对 话 的 时 候 努 力 诱导 人 们 去 购买 某 种 
商品 ， 显 然 会 市 来 可 观 的 收入 预期 。 但 谁 会 愿意 和 一 个 一 心 想 着 如 何 
户 导 你 买 东西 的 人 成 为 知己 呢 ? 


这 种 克制 ， 不 仅仅 是 一 两 家 企业 的 责任 。 它 依赖 于 整个 社会 对 人 
工 智 能， 特别 是 深度 学 习 相 关 技 术 的 了 解 。 对 技术 的 了 解 越 普 裔 ， 也 
束 越 能 帮助 企业 更 好 地 运用 手中 的 搁 术 ， 进 而 帮助 我 们 每 一 个 人 获得 
更 好 的 生活 ， 享 受 人 工 智 能 为 我 们 带 来 的 价值 。 


在 我 看 来 ， 这 就 是 这 本 书 所 具有 的 现实 意义 。 它 并 非 教科 书 ， 而 
苹 一 本 面向 未 来 的 历史 书 。 它 揭示 了 人 工 帝 能 有 娟 给 世界 、 给 人 类 市 
来 的 巨大 改变 ， 远 超 我 们 现在 所 能 想象 到 的 全 双 工 语 首 、 人 脸 识别 、 
情感 计算 其 至 是 目 动 芍 驶 。 换 句 话 说 ， 基 于 我 们 现在 的 搁 术 和 产品 水 
平 ， 相 信 许 多 人 已 能 在 脑海 中 比较 清晰 地 勾勒 出 ， 目 己 在 马路 上 与 一 
辆 并 没有 司机 区 驶 的 汽车 相遇 的 场景 。 但 与 人 工 智能 即将 展现 的 伟大 
图 景 相 比 ， 这 些 都 不 值 一 提 。 
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60 年 前 ， 数 字 计 算 机 在 人 工 智 能 (AD 的 萌芽 期 问世 ， 深 度 学 习 
章 命 的 种 子 也 在 那 时 被 播种 开 来 。 深 度 学 习 是 数据 密集 型 的 ， 通 过 实 
例 来 学 习 如 何 解 决 难题 ， 比 如 视觉 对 象 识别 、 语 音 识别 和 目 然 语言 翻 
译 等 。 人 类 从 上 婴儿 时 期 睁 开眼 睛 的 那个 时 刻 起 ， 束 开始 从 经 验 中 学 
习 ， 到 后 来 获得 语言 、 运 动 、 玩 电子 游戏 等 最 高 程度 的 能 力 ; 相 比 之 
下 ， 传 统 的 劳动 密集 型 人 工 闹 能 方法 是 基于 编写 不 同 的 复杂 计算 机 程 
序 来 解决 每 个 问题 。 

本 书 讲述 了 20 世 纪 80 年 代 一 小 群 研究 人 员 的 故事 ， 他 们 证 明了 基 
于 大 脑 式 计算 的 全 者 方法 是 可 行 的 ， 从 而 为 深度 学 习 的 发 展商 定 了 基 
fill ° 

当时 已 有 的 人 工 智能 学 术 研 究 中 心 都 投注 于 编程 ， 并 且 都 具有 强 
大 的 实力 ， 但 却 无 法 解决 上 述 任 何 难题 。 又 过 了 30 年 ， 计 算 机 才 变 得 
足够 快 ， 也 出 现 了 大 量 可 供 利用 的 数据 。 这 一 变化 让 深度 学 习 得 以 死 
服 这 些 难题 ， 并 在 今天 的 人 工 智能 领域 占据 主导 地 位 。 其 他 领域 同样 
可 以 借鉴 这 一 经 验 教 训 ， 例 如 语言 学 ， 曾 经 普 裔 持 有 的 既定 信念 阻碍 
了 该 领域 整整 一 代 人 研究 者 的 进步 。 深 度 学 习 改变 了 语言 学 ， 使 其 发 展 
基于 来 目 现实 世界 的 数据 ， 而 非 无 法 捕捉 这 些 复杂 性 的 理想 世界 的 数 
据 。 

回溯 历史 ， 人 工 智能 道生 的 秘密 可 以 在 目 然 界 中 找到 答案 ， 我 们 
对 此 并 不 应 该 感到 惊 江 。 大 目 然 有 数 亿 年 的 时 间 通 过 进化 找到 解决 方 
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何 运转 是 21 世 纪 最 大 的 挑战 之 一 。 大 目 然 发 明了 许多 经 受 住 了 时 间 考 
验 的 算法 。 理 解 这 一 挑战 并 投资 于 大 脑 研 究 的 国家 将 获得 巨大 的 回 
报 ， 远 远 超 出 20 世 纪 物 理学 和 化 学 研究 的 突破 所 产生 的 影响 ， 这 些 影 
响 已 经 极 大 地 丰富 了 我 们 的 生活 。 美 国 已 经 为 “BRAIN 计 划 ” (英文 全 
称 为 Brain Research through Advancing Innovative Neurotechnologies , 
即 “通过 推动 创新 型 神经 技术 开展 大 脑 研 究 计划 ”) 注资 50 亿 美元 ， 欧 
洲 、 日 本 和 许多 其 他 国家 或 地 区 也 在 进行 类 似 的 投资 。 中 国正 在 投资 
当前 的 人 工 智 能 技术 ， 但 它 是 否 拥 有 投资 大 脑 研 究 的 远见 ， 年 育 一 代 
又 是 否 会 接受 这 一 挑战 呢 ? 

深度 学 习 对 社会 和 个 人 生活 将 产生 深远 的 影响 ， 其 影 啊 方式 也 是 
难以 想象 的 。 在 本 书 中 ， 我 提出 了 一 个 观点 ， 即 你 无 须 担心 人 工 智能 
将 接管 你 的 工作 。 人 工 智能 会 让 你 更 聪明 ， 让 你 所 能 实现 的 成 吏 达 到 
新 的 高 度 。 束 像 工 业 革 命 时 期 蒸汽 机 放大 了 物理 能 力 一 样 ， 人 工 关 能 
会 放大 认 知 能 力 。 我 们 刚刚 步 入 一 个 新 的 时 代 EARR o RIT 
进入 的 新 世界 不 仅 会 使 我 们 变 得 更 聪明 ， 还 会 让 我 们 更 清楚 地 认识 目 
己 ， 从 而 回答 古代 的 哲学 先驱 们 最 早 提出 的 一 系列 问题 。 对 于 目 喘 ， 


我 们 又 会 得 出 哪些 深刻 的 见解 呢 ? 


如 果 你 在 连接 了 互联 网 的 安 卓 手机 或 谷歌 翻译 平台 上 使 用 语音 识 
别 功能 ， 你 其 实 是 在 与 经 过 深度 学 习 训练 的 神经 网 络 UL) 进行 交流 。 
过 去 几 年 ， 深 度 学 习 为 谷歌 带 来 了 丰厚 的 利润 ， 足 以 支付 Google XX 
验 室 中 所 有 未 来 主义 项 目的 成 本 ， 包 括 自动 驾驶 汽车 、 谷 歌 眼 镜 和 谷 
歌 大 脑 。 [2 谷歌 是 最 早 拥抱 深度 学 习 的 互联 网 公司 之 一 ， 并 在 2013 
年 聘请 了 深度 学 习 之 父 杰 弗 里 .立顿 (Geoffrey Hinton) ， 其 他 公司 也 
在 竞相 追赶 它 的 脚步 。 


人 工 吞 能 近期 取得 的 进展 得 益 于 大 脑 人 逆 癌 工程 。 分 层 神 经 网 络 模 
型 的 学 习 算 法 受到 了 神经 元 之 间 交 流 方式 的 启发 ， 并 依据 经 验 进行 了 
改进 。 在 网 络 内 部 ， 世 界 的 复杂 性 转变 为 五 彩 缤纷 的 内 部 活动 模式 ， 
这 些 模 式 是 智能 的 元 素 。 我 在 20 世 纪 80 年 代 研 究 的 网 络 模型 很 小 ， 相 
比 之 下 ， 现 在 的 模型 有 数 百 万 个 人 造 神 经 元 ， 深 度 达 到 了 几 十 层 。 持 
久 的 努力 、 大 数据 和 更 强大 的 计算 机 运算 能 力 使 得 深度 学 习 在 人 工 智 
能 领域 一 些 最 困难 的 问题 上 取得 了 重大 突破 。 

我 们 并 不 疼 于 想象 狐 技 术 对 未 来 的 影响 。 谁 能 在 1990 年 互联 网 刚 
开始 商业 化 的 过 程 中 预见 到 它 对 音乐 产业 的 影响 ， 以 及 对 出 租车 业 
务 、 政 治 运 动 ， 还 有 我 们 日 常生 活 几 乎 所 有 方面 的 影响 ? 同样 ， 我 们 
也 未 能 预见 到 电脑 会 如 何 改 变 我 们 的 生活 。IBM (国际 商业 机 器 公 
HJ) 总 裁 托马斯 : 沃 森 (Thomas J. Watson) 在 1943 年 说 的 一 句 话 后 来 
被 广泛 引用 : “我 觉得 全 世界 也 许 能 卖 出 5 台 计 算 机 吧 。”[3] 很 难 想象 


一 个 新 发 明 都 有 哪些 用 途 ， 其 发 明 人 对 这 些 用 途 的 预测 也 不 见得 比 其 
他 人 更 准确 。 在 乌托邦 和 世界 末日 的 两 极 之 间 ， 有 很 多 关于 深度 学 习 
和 人 工 智能 应 用 场景 的 预测 空间 ， 但 即使 是 最 具 想 象 力 的 科幻 小 说 作 
家 也 不 大 可 能 猜 出 它们 最 终 会 产生 什么 样 的 影响 。 


本 书 的 初稿 是 我 在 太平 洋 西北 地 区 141 徒步 旅行 ， 并 思索 了 近 几 
十 年 来 人 工 状 能 领域 的 显著 变化 之 后 写 出 来 的 。 这 本 书 讲 了 一 个 一 小 
群 钱 究 人 员 挑 战 AI 人 研究 建制 派 的 故事 ， 这 些 建制 派 在 当时 拥有 更 充足 
的 资金 文 持 ， 并 被 看 作 “ 唯 一 的 主导 力量 *”， 他 们 大 大 低估 了 这 些 问题 
的 难度 ， 并 且 所 依赖 的 对 智能 的 直觉 ， 后 来 被 证 明 是 有 误导 性 的 。 


地 球 上 的 生命 充满 了 无 数 奥 秘 ， 但 最 具 挑战 性 的 也 许 是 智能 的 本 
质 。 目 然 界 充 不 着 各 种 形式 的 养 能 ， 从 微小 的 细菌 到 复杂 的 人 类 入 
能 ， 每 种 智能 都 适应 了 它 在 目 然 界 中 的 位 置 。 人 工 智 能 也 将 以 多 种 形 
式 出 现 ， 并 在 智能 族谱 中 占据 特殊 的 位 置 。 随 着 基于 深度 神经 网 络 的 
机 器 智能 日 渐 成 熟 ， 它 可 以 为 生物 六 能 提供 一 个 新 的 概念 框架 。 

这 是 一 本 关于 深度 学 习 的 过 去 、 现 在 和 未 来 的 指南 。 不 过 本 书 并 
不 是 对 该 领域 发 展 历史 的 全 面 梳 理 ， 而 是 记录 了 这 一 领域 重要 概念 的 
进步 及 其 衣 后 研究 群体 的 个 人 观点 。 人 类 的 记忆 并 不 可 靠 ， 对 故事 的 
每 次 复述 都 会 导致 记忆 的 侦 兰 ， 这 个 过 程 叫 作 “ 重 整 记忆 ”。 这 本 书 中 
的 故事 延续 了 40 多 年 ， 尽 管 有 些 对 我 来 说 依然 历历 在 目 ， 束 像 昨 天 刚 
发 生 的 一 样 ， 但 我 很 清楚 ， 那 些 故 事 在 我 的 记忆 中 不 断 被 复述 时 ， 有 
些 细节 已 经 悄悄 地 被 改写 了 。 


本 书 的 第 一 部 分 提供 了 深度 学 习 的 动机 和 理解 其 起 源 所 需 的 背景 
信息 ;第 二 部 分 解释 了 几 种 不 同类 型 的 神经 网 络 架 构 中 的 学 习 算 法 ; 
第 三 部 分 则 探讨 了 深度 学 习 对 我 们 当下 生活 产生 的 影响 ， 以 及 未 来 大 
干 年 可 能 产生 的 影响 。 然 而 ， 正 如 纽约 扬 基 队 的 哲人 尤 吉 : 贝 拉 (Yogi 
Berra) 曾经 说 过 的 那样 :“ 做 出 预测 很 难 ， 特 别 是 对 未 来 的 预测 。” 本 
书 前 八 章 的 内 容 交 代 了 故事 的 技术 背景 ， 三 个 部 分 开头 的 要 事 年 表 记 
杂 了 与 这 个 故事 有 关 的 事件 ， 时 间 跨 度 超过 了 60 年 。 


[1] 严格 地 说 ， 神 经 网 络 是 一 个 生物 实体 ， 机 器 学 习 中 使 用 的 模型 是 人 工 神 经 网 络 一 一 
ANNies。 但 若 无 另 行 说 明 ， 本 书 中 的 “神经 网 络 ?默认 代 指 人 工 神 经 网 络 。 

[2] Conor Dougherty, *Astro Teller, Google's *Captain of Moonshots,”on Making Profits at 
Google X," New York Times , February 6, 2015, https://bits.blogs.nytimes.com/2015/02/16/googles- 
captain-of-moonshots-on-making-profits-at-google-x. 深度 学 习 将 运行 数据 中 心 的 电力 成 本 降低 
了 15%， 每 年 可 以 节省 数 亿 美元 。 

[3] 尽管 沃 森 在 1943 做 出 的 估计 从 未 得 到 过 确认 ， 但 它 反 映 了 当时 的 人 们 普遍 无 法 想象 H 
脑 的 未 来 。 

[4] 太平 洋 西北 地 区 是 指 美 国 西北 部 地 区 和 加 拿 大 的 西南 部 地 区 。 
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达 特 茅 斯 人 工 智 能 夏季 研究 计划 (The Dartmouth Artificial 
Intelligence Summer Research Project) 开启 了 人 工 智 能 领域 的 研究 ， 
并 鼓舞 了 一 代 科 学 家 探寻 可 以 媲美 人 类 智慧 的 信息 技术 的 潜力 。 


1962 年 


弗兰克 . 罗 森 布 拉 特 (Frank Rosenblatt) 出 版 了 《神经 动力 学 原 
理 : 感知 器 和 大 脑 机 制 的 理论 》 (Principles of Neurodynamics: 
Perceptrons and the Theory of Brain Mechanisms )， 该 书 介 绍 了 一 种 应 
用 于 具有 单 层 可 变 权 重 的 神经 网 络 模 型 的 学 习 算 法 ， 该 算法 是 今天 的 
深度 神经 网 络 模型 的 学 习 算 法 的 前 身 。 
1962 年 

大 卫 . 休 伯 尔 (David Hubel) 和 托 斯 坦 . 威 泽 尔 (Torsten Wiesel) 
发 表 了 《 猫 的 视觉 皮质 中 的 感受 野 、 双 目 互 动 和 功能 架构 》 

( Receptive Fields,Binocular Interaction and Functional Architecture 

in the Cat's Visual Cortex) 一 文 ， 第 一 次 报道 了 由 微 电 极 记录 的 单个 
神经 元 的 响应 特性 。 深 度 学 习 网 络 的 架构 类 似 于 视觉 皮质 的 层次 结 
构 。 


1969 年 


马 文 . 明 斯 基 (Marvin Minsky) 和 西 摩尔 . 帕 普 特 (Seymour 
Papert) 出 版 了 《感知 器 》(Perceptrons )， 该 书 指出 了 单个 人 造 神经 
元 的 计算 极限 ， 标 志 着 神经 网 络 领域 寒冬 的 到 来 。 


1979 年 


杰 弗 里 . 辛 顿 和 往 姆 斯 .安德森 (James Anderson) 在 加 州 拉 荷 亚 
市 (La Jolla) 举办 了 “关联 记忆 的 并 行 模型 ” (Parallel Models of 
Associative Memory) 研讨 会 ， 把 新 一 代 的 神经 网 络 先驱 们 育 集 到 了 
一 起 ， 同 时 也 推动 辛 顿 和 安德森 在 1981 年 发 表 了 同名 系列 研究 著作 。 


1986 年 


第 一 届 神 经 信息 处 理 系统 大 会 (Neural Information Processing 
Systems, 以 下 统称 NIPS H1) 及 研讨 会 在 美国 丹佛 科技 中 心 举 办 ， 该 
会 议 吸 引 了 很 多 不 同 领域 的 研究 人 员 。 


[1] NIPS 现 通称 为 NeurIPS。- 一 译 者 注 
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不 久之 前 ， 人 们 还 常 说， 计算 机 视觉 的 辨别 能 力 尚 不 如 一 岁 大 的 
孩子 。 如 今 看 来 ， 这 句 话 要 改写 了 。 计 算 机 不 仅 能 和 大 多 数 成 年 人 一 
样 识别 图 片 中 的 物体 ， 在 马路 上 驾驶 汽车 的 安全 性 还 高 过 16 岁 的 青 少 
年 。 更 神奇 的 是 ， 如 今 的 计算 机 不 再 是 被 动 按照 指令 识别 和 驾驶 ， 而 
是 像 自然 界 的 生命 由 数 百 万 年 前 开始 进化 那样 ， 自 主 地 从 经 验 中 学 
习 。 是 数据 的 井喷 促成 了 这 一 技术 进步 。 如 果 说 数据 是 新 时 代 的 石 
油 ， 那 么 学 习 算 法 就 是 从 中 提取 信息 的 炼油 三， 信息 积累 成 知识 ， 知 
识 深化 成 理解 ， 理 解 演变 为 智慧 。 欢 迎 来 到 深度 学 习 的 新 世界 。 H 

深度 学 习 是 机 器 学 习 的 一 个 分 支 ， 它 根植 于 数学 、 计 算 机 科学 和 
神经 科学 。 深 度 网 络 从 数据 中 学 习 ， 就 像 婴 儿 了 解 周围 世界 那样 ， 从 
睁 开眼 睛 开始 ， 慢 慢 获 得 罗 驭 新 环境 所 需 的 技能 。 深 度 学 习 的 起 源 可 
以 追溯 到 20 世 纪 50 年 代 人 工 智 能 的 诞生 。 关 于 如 何 构建 人 工 智 能 ， 当 
时 存在 两 种 不 同 的 观点 ， 一 种 观点 主张 基于 逻辑 和 计算 机 程序 ， 曾 主 
宁 人 工 智能 的 研究 和 应 用 数 十 年 ; 另 一 种 观点 则 主张 直接 从 数据 中 学 
习 ， 经 历 了 更 长 时 间 的 摸索 才 逐 渐 成 熟 。 


20 世 纪 ， 计 算 机 技术 还 不 够 成 熟 ， 而 且 按 照 现 在 的 标准 ， 数 据 存 
储 成 本 十 分 高 昂 ， 用 逻辑 程序 来 解决 问题 更 加 高 效 。 熟练 的 程序 员 需 
要 为 每 个 不 同 的 问题 编写 不 同 的 程序 ， 问 题 越 大 ， 相 应 的 程序 也 就 越 
复杂 。 如 今 ， 计 算 机 能 力 日 赵强 大， 数据 资源 也 变 得 庞大 且 丰 富 ， 使 
用 学 习 算法 解决 问题 比 以 前 更 快 、 更 准确 ， 也 更 高 效 。 此 外 ， 同 样 的 
学 习 算 法 还 能 用 来 解决 许多 不 同 的 难题 ， 这 远 比 为 每 个 问题 编写 不 同 
的 程序 更 加 市 省 人 力 。 
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在 2005 年 美国 国防 部 高 级 研究 计划 局 (以 下 简称 DARPA) 举办 的 
自动 芍 驶 挑战 赛 中 ， 一 辆 由 斯 坦 福 大 学 塞 巴 斯 蒂 安 . 特 隆 (Sebastian 
Thrun) 实验 室 开发 的 上 自动 要 驶 汽车 Stanley 最 终 赢 得 了 200 万 美元 现金 
XX ( 见 图 1-1) 。 团 队 利 用 了 机 器 学 习 技 术 教 它 如 何 自主 地 在 加 利 福 
尼 亚 州 的 沙漠 中 罕 行 。132 英 里 的 赛 道中 有 若干 狭窄 的 隧道 和 急 转 榨 ， 
还 包括 啤酒 瓶 道 (Beer Bottle Pass) , iX7e— EE E TRES, PX ul 
分 别 是 碎 石 遍布 的 陡坡 和 断 壁 ( 见 图 1-2) 。 特 隆 并 没有 遵循 传统 的 AI 
方法 ， 即 通过 编写 计算 机 程序 来 应 付 各 种 偶发 事件 ， 而 是 在 沙漠 中 区 
驶 Stanley， 让 汽车 根据 视觉 和 距离 传感器 的 感应 输入 ， 学 习 如 何 像 人 
一 样 要 驶 。 
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挑战 赛 。 这 项 突破 引发 了 交通 界 的 技术 革命 。 图 片 来 源 ， 塞 巴 斯 带 安 - 特 隆 。 


- 


图 1-2 m 。 这 上段 极 具 挑战 性 的 地 形 位 于 2005 年 DARPA 自动 驾驶 挑战 赛 的 末 段 。 该 赛事 要 
mu UMEN * ah BS 7 RR HE IE SEIEN ^ OR 
Wi: DARPA ° 


特 隆 后 来 参与 创立 了 高 科技 项 目 重点 实验 室 Google X， 并 开始 了 
进一步 研究 目 动 轰 驶 汽车 技术 的 计划 。 合 歌 的 目 动 区 驶 汽车 目 此 开 
始 ， 在 旧金山 湾 区 累积 了 350 万 英里 的 车 程 。 优 步 (Uber) 已 经 在 匹 效 
IN SLAMS WAS oe PREGA RMS wh, UP KER 
作 系 统 控 制 的 产品 范围 ， 并 希望 能 够 再 现 它 在 手机 市 场 上 的 辉 焊 。 汽 
车 制造 商 们 亲眼 看 见 一 个 100 年 来 从 未 改变 的 行业 在 他 们 眼前 发 生 了 转 
型 ， 也 开始 奋起 直 追 。 通 用 汽车 公司 以 10 亿 美元 的 价格 并 购 了 开发 无 
人 区 驶 技术 的 硅谷 创业 公司 Cruise Automation， 并 在 2017 年 投入 了 额外 
的 6 亿美 元 用 于 研发 。 2017 年 ， 英 特 尔 以 153 亿 美元 的 价格 收购 了 
Mobileye， 它 是 一 家 专门 为 自动 区 驶 汽车 研发 传感器 和 计算 机 视觉 的 公 
司 。 在 价值 数 万 亿美 元 的 交通 运输 领域 ， 参 与 的 各 方 都 下 了 极 高 的 赌 
注 。 


自动 驾驶 汽车 不 久 将 扰乱 数 百 万 卡车 司机 和 出 租车 司机 的 生计 。 
最 终 ， 如 果 一 辆 自动 驾驶 汽车 能 够 在 一 分 钟 内 出 现 ， 将 你 安全 带 到 目 
的 地 且 无 须 停车 ， 在 城市 拥有 汽车 就 显得 不 那么 必要 了 。 今 天 ， 汽 车 
行驶 时 间 平均 仅 占 496， 这 意味 着 它 其 余 96% 的 时 间 都 需要 停放 在 某 个 
地 方 。 由 于 自动 驾驶 汽车 可 以 在 城市 外 围 维修 和 停放 ， 城 市 中 被 大 量 
停车 场 占用 的 空间 得 以 被 重新 高 效 利用 。 城 市 规划 者 已 经 开始 考虑 让 
停车 场 变 成 公园 了 。 [3] 街 边 的 停车 道 可 以 成 为 真正 的 自行 车 道 。 其 他 
汽车 相关 行业 也 将 受到 影响 ， 包 括 汽车 保险 业 和 修理 厂 。 超 速 和 停车 
罚单 将 不 复 存在 。 由 醉 驾 和 疲劳 驾驶 导致 的 交通 事故 死亡 人 数 也 会 相 
应 减少 。 通 勤 浪费 的 时 间 也 将 被 节省 下 来 做 其 他 事情 。 根 据 2014 年 的 
美国 人 口 普查 数据 ，1.39 亿 上 班 族人 均 单 日 通勤 时 间 达 到 了 52 分 钟 ， 全 
年 总 计 296 亿 小 时 。 这 惊人 的 340 万 年 的 时 间 本 可 以 在 人 生 中 得 到 更 好 
的 利用 。 A 自动 驾驶 汽车 会 使 公路 通行 能 力 翻 两 番 。 [5] 而 且 ， 一 旦 
大 规模 投入 使 用 ， 没 有 方向 盘 、 可 以 自己 开 回 家 的 自动 鸭 驶 汽车 还 会 
让 大 规模 汽车 盗 窍 行为 销声匿迹 。 虽 然 目前 自动 驾驶 汽车 仍 面 临 很 多 
监管 和 法 律 层面 的 障碍 ， 但 这 一 技术 一 旦 开始 普及 ， 我 们 就 将 迎 来 一 
个 办 新 的 世界 。 可 以 预见 的 是 ， 卡 车 大 概 会 在 10 年 内 率先 实现 自动 轰 
驶 ， 出 租车 要 花 上 15 年 ， 而 15 到 25 年 后 ， 客 运 无 人 车 将 全 面 走 入 人 们 
的 生活 。 

汽车 在 人 类 社会 中 的 标志 性 地 位 将 以 我 们 无 法 想象 的 方式 发 生变 
化 ， 一 种 新 的 汽车 生态 也 将 应 运 而 生 。 正 如 100 多 年 前 汽车 的 出 现 创 和 
了 许多 新 的 行业 和 就 业 机 会 ， 围 绕 着 自动 驾驶 汽车 的 发 展 ， 也 出 现 了 
一 个 快速 增长 的 生态 系统 。 从 谷歌 独立 出 来 的 自动 鸭 驶 公司 Waymo，8 
年 来 已 经 投入 了 10 亿 美元 ， 并 在 加 州 中 部 山谷 搭建 了 一 个 秘密 测试 声 
所 。 该 场所 位 于 一 个 占 地 91 英 亩 的 仿造 小 镇 ， 其 中 还 设计 了 骑 自行 车 
的 “演员 ”和 假 的 汽车 事故 。[6] 其 目的 是 扩大 训练 数据 集 以 包含 特殊 和 
不 常见 的 情况 (也 叫 边缘 情况 ) 。 公 路 上 罕见 的 驾驶 事件 经 常会 导致 
事故 。 自 动 驾驶 汽车 的 不 同 之 处 就 在 于 ， 当 一 辆 汽车 遇 到 罕见 事件 
时 ， 相 应 的 学 习 体验 会 被 传递 给 所 有 其 他 自动 驾驶 汽车 ， 这 是 一 种 集 


体 智 能 。 其 他 自动 驾驶 汽车 公司 也 在 建造 许多 类 似 的 测试 设施 。 这 些 
举措 创造 了 以 前 并 不 存在 的 新 工作 机 会 ， 以 及 用 于 汽车 导航 的 传感器 
和 激光 器 的 新 供应 链 。 [Z] 

自动 驾驶 汽车 仅 是 信息 技术 推动 经 济 发 生 重大 转变 的 一 个 最 明显 
的 体现 。 网 络 上 的 信息 流 就 像 城市 管道 里 的 水 流 。 信 息 在 谷歌 、 亚 马 
逊 、 微 软 和 其 他 IT 公司 的 大 型 数据 中 心 聚 集 。 这 些 数据 中 心 需要 耗费 
大 量 电力 ， 因 此 通常 建 在 水 电站 附近 ， 并 利用 河水 来 冷却 信息 流 所 产 
生 的 大 量 热 量 。2013 年 ， 美 国 的 数据 中 心 消耗 了 1000 万 兆 瓦 的 电量 ， 
相当 于 34 个 大 型 电厂 产生 的 电力 。 [外 但 是 目前 对 经 济 影响 更 大 的 是 如 
何 使 用 这 些 信 息 。 从 原始 数据 中 提取 出 的 信息 被 转化 为 关于 人 和 事 的 
知识 : 我 们 做 什么 ， 我 们 想 要 什么 ， 我 们 是 谁 。 计 算 机 驱动 的 设备 也 
在 越 来 越 多 地 利用 这 些 知识 与 我 们 进行 口头 上 的 交流 。 与 大 脑 之 外 、 
书本 之 中 的 被 动 知识 不 同 ， 储 存在 云 中 的 知识 是 一 种 外 部 智能 ， 并 且 
正在 成 为 人 们 生活 中 积极 、 活 跃 的 一 部 分 。 [3 


自然 语言 翻译 : 从 语言 到 句子 的 飞跃 


如 今 ， 谷 歌 在 超过 100 种 服务 中 使 用 了 深度 学 习 ， 包 括 街景 视 网 
(Street View) 、 收 件 箱 智 能 回复 (Inbox Smart Reply) 和 语音 搜索 。 
几 年 前 ， 谷 歌 的 工程 师 意识 到 他 们 需要 将 这 些 计 算 密集 型 应 用 扩展 到 
云端 。 他 们 开始 着 手 设计 一 种 用 于 深度 学 习 的 专用 心 片 ， 并 巧妙 地 设 
计 了 可 以 插入 数据 中 心机 架 中 的 硬盘 插 模 的 电路 板 。 合 歌 的 张 量 处 理 
单元 (TPU) 现在 已 配置 在 遍布 全 球 的 服务 器 上 ， 让 深度 学 习 应 用 程序 
的 性 能 得 到 了 大 幅 改 进 。 
深度 学 习 快 速 改 变 格局 的 一 个 例子 是 它 对 语言 翻译 的 影响 。 语 言 
翻译 是 人 工 智 能 的 一 只 圣杯 ， 因 为 它 依赖 于 理解 句子 的 能 力 。 人 谷歌 最 
近 推出 了 基于 深度 学 习 的 最 新 版 谷歌 翻译 (Google Translate) ， 代 表 了 


HIS E aU i BK KER ^ JLSE— CZ IR], a SSBC 
ELAR, TRE IR CMA ( 见 图 1-3) 。 之 前 的 计算 机 
方法 搜索 的 是 可 以 被 一 并 翻译 的 词汇 组 合 ， 但 深度 学 习 会 在 整个 句子 


中 寻找 词汇 之 则 的 依赖 关系。 


图 1-3 手机 上 的 谷歌 翻译 应 用 可 以 将 日 语文 字 和 菜单 即时 译 成 英文 。 这 一 功能 对 于 在 日 本 如 何 
按照 指示 牌 乘 车 尤为 重要 。 


得 知 谷歌 翻译 获得 了 巨大 进步 的 消息 后 ，2016 年 11 月 18 日 ， 东 束 
大 学 的 唇 本 纯 一 (Jun Rekimoto) 测试 了 这 个 新 系统 。 他 把 欧 内 斯 特 : 海 
明 威 的 小 说 《气力 马扎 罗 的 雪 》 开 头 的 一 段 话 翻译 成 了 日 文 ， 然 后 再 
把 这 段 日 文 翻译 成 英文 ， 结 果 如 下 〈 猜 猜 哪个 是 海明威 的 原作 ) : 


1. Kilimanjaro is a snow-covered mountain 19,710 feet high,and is 
said to be the highest mountain in Africa. Its western summit is called 


the Masai *Ngaje Ngai," the House of God. Close to the western summit 
there is the dried and frozen carcass of a leopard. No one has explained 


what the leopard was seeking at that altitude. [10] 


2. Kilimanjaro is a mountain of 19,710 feet covered with snow and 
is said to be the highest mountain in Africa. The summit of the west is 
called *Ngaje Ngai" in Masai, the house of God. Near the top of the west 
there is a dry and frozen dead body of leopard. No one has ever 


explained what leopard wanted at that altitude. [11] [12] 


海明威 的 原作 是 第 一 段 。 

下 一 步 工 作 是 训练 更 大 规模 的 深度 学 习 网 络 ， 针 对 段落 来 提高 扣 
子 间 的 连贯 性 。 文 字 背 后 都 有 悠久 的 文化 历史 。 俄 裔 作家 和 英文 小 说 
家 ，《 洛 丽 塔 》 一 书 的 作者 弗 拉 基 米 尔 - 纳 博 科 夫 (Vladimir Nabokov) 
曾经 得 出 结论 ， 在 不 同 语言 之 间 翻 译 诗歌 是 不 可 能 的 。 他 将 亚历山大 - 
普希金 (Aleksandr Pushkin) 的 诗 体 小 说 《 叶 表 盖 尼 : 奥 涅 金 》 (Eugene 
Onegin) 直译 成 了 英文 ， 并 对 这 些 诗 文 的 文化 背景 做 了 解释 性 脚注 ， 
以 此 论证 他 的 观点 。 H3] 或 许 谷歌 翻译 终 有 一 天 能 够 通过 整合 莎 士 比 
亚 的 所 有 诗歌 来 翻译 他 的 作品 。 HA 


语音 识别 : 实时 路 文化 交流 不 再 遥远 


人 工 智能 的 另 一 只 圣杯 是 语音 识别 。 不 久之 前 ， 计 算 机 的 独立 语 
音 识别 应 用 领域 还 很 有 限 ， 如 机 票 预 订 。 而 如 今 ， 限 制 已 不 复 存 在 。 
2012 年 ， 一 名 来 自 多 伦 多 大 学 的 实习 生 在 微软 研究 院 (Microsoft 
Research) 的 一 个 夏季 研究 项 目 中 ， 让 微软 的 语音 识别 系统 性 能 得 到 了 
显著 的 提升 (图 1-4) 。 U5) 2016 年 ， 微 软 的 一 个 团队 宣布 ， 他 们 开发 


的 一 个 拥有 120 层 的 深度 学 习 网 络 已 经 在 多 人 语 首 识别 基准 测试 中 达到 


了 与 人 类 相当 的 水 平 。 
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Came together to develop with another breakthrough inthe - 3 
field of speech recognition research. 
The idea that they had was to us@.a technology In a i 


图 1-4 微软 首席 研究 官 LY DU TS (Rick Rashid) 在 2012 年 10 月 
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Aecogaltdi lity: 


于 中 国 天 津 举行 的 一 场 活 


动 中 ， 使 用 深度 学 习 进 行 了 自动 语音 识别 的 现场 演示 。 在 2000 名 中 国 观众 面前 ， 拉 希 德 说 的 英 


文 被 目 动 化 系统 识别 ， 先 在 
难度 展示 被 全 球 媒体 争 相 报道 。 图 片 来 源 ， 微 软 研究 院 。 


在 他 的 屏幕 图 像 下 方 显示 出 英文 字幕 ， 随 后 被 翻译 成 了 中 文 。 此 次 高 


这 一 突破 性 成 果 将 在 之 后 的 几 年 逐渐 影响 我 们 的 社会 ， 计 算 机 键 
时 会 被 目 然 语言 接口 取代 。 随 着 数字 助手 ， 如 亚马逊 的 Alexa、 苹 采 的 
Siri 以 及 微软 的 Cortana 移 后 进入 千家 万 户 ， 这 种 取代 已 经 在 发 生 了 。 束 
如 随 着 个 人 电脑 的 普及 ， 打 字 机 退出 了 历史 舞台 ， 有 一 天 电脑 键盘 也 


将 成 为 博物 馆 的 展品 。 


当 语音 识别 和 语言 翻译 结合 到 一 起 时 ， 实 时 的 路 文化 交流 将 有 可 
能 实现 。《 星 际 迷 航 》 中 那 种 万 能 翻译 机 将 触手 可 及 。 为 什么 计算 机 


语音 识别 和 语言 翻译 达到 人 类 的 水 平 要 花 这 么 久 的 时 间 ? 难道 计算 机 
的 各 种 认 知 能 力 同时 进入 瓶颈 期 仅仅 是 巧合 吗 ? 其 实 所 有 这 些 突破 都 
源 于 大 数据 的 出 现 。 


AI 医疗 : EFOR EINEM 


深入 皮肤 


随 着 机 器 学 习 的 成 熟 并 被 应 用 于 可 获取 大 数据 的 许多 其 他 问题 ， 
服务 行业 和 其 相关 职业 也 将 发 生 转 变 。 基 于 数 百 万 患者 病情 记录 的 医 
学 诊断 将 变 得 更 加 准确 。 最 近 的 一 项 研究 将 深度 学 习 运 用 到 了 囊括 超 
过 2000 种 不 同 疾病 的 13 万 张 皮肤 病 学 图 像 中 ， 这 个 医学 数据 库 是 以 前 
的 10 倍 大 (图 1-5) e Z] 该 研究 的 网 络 被 训练 用 于 诊断 “测试 
集 ”(testset， 它 从 未 见 过 的 新 图 像 集 ) 中 的 各 种 疾病 。 它 在 新 图 像 上 
的 诊断 表现 与 21 位 皮肤 科 专 家 的 结论 基本 一 致 ， 甚 至 在 某 些 情况 下 还 
要 更 准确 。 在 不 久 的 将 来 ， 任 何 一 个 拥有 智能 手机 的 人 都 可 以 拍 下 疑 
似 皮肤 病变 的 照片 ， 并 立即 进行 诊断 -而 现在 要 完成 同样 的 过 程 ， 
我 们 需要 先 去 看 医生 ， 耐 心 等 待 病变 被 专家 筛 查 出 来 ， 然 后 再 支付 一 
大 笔 账 单 。 这 一 进步 将 大 大 扩大 皮肤 病 护 理 的 范围 ， 提 升 护理 质量 。 
如 果 个 体 可 以 很 快 得 到 专家 诊断 ， 他 们 会 在 皮肤 病 的 早期 阶段 ， 也 就 
是 更 容易 治疗 的 时 候 就 开始 就 医 。 借 助 深度 学 习 ， 所 有 的 医生 都 将 更 
准确 地 诊断 罕见 的 皮肤 病 。 [18] 


图 1-5 艺术 家 绘制 的 高 准确 度 诊断 皮肤 病变 的 深度 学 习 网 络 图 ，2017 年 2 月 2 日 《自然 》 杂 志 老 
面 o 


深入 癌症 


如 果 专 家 在 转移 性 乳腺 瘤 的 淋巴 结 活检 切片 图 像 上 判断 错误 ， 了 怠 
有 可 能 导致 致命 的 后 果 。 这 是 一 种 深度 学 习 擅长 的 模式 识别 问题 。 实 
际 上 ， 一 个 经 过 大 量 结论 清晰 的 切片 数据 训练 出 来 的 深度 学 习 网 络 能 
达到 0.925 的 准确 度 ， 还 不 错 ， 但 还 不 及 人 类 专家 在 同一 测试 集 上 达到 
的 0.966。 [19] 然而 ， 把 深度 学 习 与 人 类 专家 的 预测 结合 起 来 ， 准 确 度 
达到 了 0.995， 几 近 完 美 。 由 于 深度 学 习 网 络 和 人 类 专家 查看 相同 的 数 
据 的 方式 不 同 ， 二 者 相 结 合 的 效果 比 单独 预测 要 好 。 这 样 一 来 ， 更 多 
的 生命 得 以 被 挽救 。 这 表明 在 未 来 ， 人 类 与 机 絮 将 是 合作 而 非 范 争 的 
RR ° 


深入 睡眠 


如 果 你 有 严重 的 睡眠 问题 《70% 的 人 一 生 中 都 会 遇 到 这 个 问题 ) ， 
你 要 等 待 儿 个 月 才能 见 到 你 的 医生 〈 除 非 问题 十 分 紧急 ) ， 然 后 你 会 


被 转 到 一 个 睡眠 诊所 。 在 那里 ， 你 需要 在 身上 接 几 十 个 能 在 你 入 睡 时 
记录 你 的 脑 电 图 (EEG) 和 肌肉 活动 的 电极 ， 接 受 彻夜 观察 。 每 个 晚 
上 ， 你 会 先进 入 慢 波 睡眠 ， 然 后 定期 进入 快速 眼 动 (REM) ER, Æ 
此 期 间 ， 你 会 做 梦 ， 但 是 失 卢 、 睡 眠 呼吸 暂停 综合 征 、 不 宁 腿 综合 征 
以 及 许多 其 他 睡眠 障碍 会 干扰 这 种 睡眠 模式 。 如 果 你 在 家 里 就 很 难 入 
睡 ， 那 么 在 一 张 陌生 的 床上 ， 全 身 接 满 了 让 人 不 安 的 医疗 设备 进入 睡 
眠 状态 ， 绝 对 算得 上 真正 的 挑战 。 睡 眠 专家 会 查看 你 的 脑 电 图 记录 ， 
以 30 秒 为 单位 标记 睡眠 阶段 ， 一 段 8 小 时 的 睡眠 要 花 几 个 小 时 才能 标记 
完 。 而 最 终 你 会 得 到 一 份 有 关 睡 眠 模式 异常 情况 的 报告 ， 以 及 一 份 
2000 美 元 的 账单 。 

依据 1968 年 由 安东尼 : 雷 希 特 施 苍 (Anthony Rechtshaffen) 和 艾 伦 : 
卡 莱 斯 (Alan Kales) 设计 的 系统 ， 睡 眠 专家 将 接受 寻找 表征 不 同 睡 眠 
阶段 特征 迹象 的 培训 。 [20] 但 是 由 于 这 些 特征 常常 不 明确 ， 也 不 一 
致 ， 只 有 75% 的 情况 下 专家 们 能 在 数据 解读 上 达成 一 至。 相 比 之 下 ,我 
实验 室 之 前 的 一 名 研究 生 菲 利 普 : 洛 (Philip Low) 使 用 无 监督 机 器 学 
习 ， 花 了 不 到 一 分 钟 的 计算 机 运算 时 间 ， 以 3 秒 的 时 间 分 辨 率 自 动 检测 
睡 眼 阶段 ， 和 879% 的 人 类 专家 达成 了 一 致 的 结论 。 此 外 ， 这 种 方式 只 需 
要 在 头 部 的 单个 位 置 做 记录 ， 用 不 到 那些 触 点 和 接线 ， 也 节省 了 大 量 
佩戴 和 摘除 的 时 间 。2007 年 ， 我 们 创立 了 一 家 公司 Neurovigi]， 想 将 这 
项 技术 引入 睡眠 诊所 ， 但 诊所 对 此 没有 表现 出 多 大 兴趣 ， 因 为 靠 人 力 
标注 能 产生 更 多 的 现金 流 。 实 际 上 ， 依 据 保 险 号 向 患者 开具 账单 ， 会 
让 诊所 没有 动机 采用 更 廉价 的 程序 。Neurovigil 在 大 型 制药 公司 发 现 了 
另 一 个 市 场 ， 这 些 公 司 在 开展 临床 试验 ， 需 要 测试 他 们 的 药物 对 睡眠 
模式 的 影响 。 这 项 技术 目前 正在 进入 长 期 护理 设施 市 场 ， 帮 助 解决 在 
老年 人 中 更 普遍 的 进行 性 睡眠 问题 。 

睡眠 诊所 模式 是 存在 缺陷 的 ， 因 为 在 这 样 的 限制 条 件 下 不 能 可 靠 
地 诊断 出 健康 问题 : 每 个 人 的 生理 基数 都 不 同 ， 而 偏离 这 个 基数 的 信 
县 最 重要 。Neurovigil 已 经 有 了 一 个 小 型 设备 iBrain， 它 可 以 在 家 里 记录 
你 的 脑 电 图 信息 ， 将 数据 传 到 网 上 并 分 析 数 据 的 长 期 趋势 和 异常 情 


况 。 这 可 以 帮助 医生 及 时 发 现 健康 问题 ， 在 恶化 前 及 时 干预 并 阻止 慢 
性 疾病 的 发 展 。 其 他 很 多 疾病 的 治疗 也 将 受益 于 持续 监测 ， 如 1 型 糖尿 
病 ， 血 糖水 平 可 以 被 监测 并 通过 胰岛 素 进行 调节 。 使 用 能 够 连续 记录 
数据 的 廉价 传感器 正在 对 其 他 慢性 疾病 的 诊断 和 治疗 产生 重大 影响 。 

从 Neurovigil 的 发 展 过 程 中 可 以 看 出 : 第 一 ， 即 便 拥 有 更 好 更 廉价 
的 技术 ， 也 不 代表 能 轻易 地 将 其 转化 为 有 市 场 价 值 ， 甚 至 更 优质 的 新 
产品 或 服务 ， 第 二 ， 当 现 有 产品 在 市 场 中 的 地 位 根深 带 固 ， 就 会 进 一 
步 开 发 出 深入 应 用 的 二 级 市 场 ， 可 以 让 新 技术 产生 更 直接 的 影响 ， 并 
争取 时 间 来 改进 ， 提 升 竞争 力 。 太 阳 能 和 许多 其 他 者 兴 产 业 的 技术 惑 
是 这 样 进 入 市 场 的 。 从 长 远 来 看 ， 已 被 证 实 具 有 优势 的 睡眠 监测 和 新 
技术 将 会 禾 访 到 家 中 的 患者 ， 并 最 终 融 入 医疗 实践 。 


金融 科技 : 利用 数据 和 算法 获取 最 佳 回报 


纽约 证 券 交 易 所 超过 75% 的 交易 都 症 目 动 完成 的 (图 1-6) ， 高 频 
交易 能 在 几 分 之 一 秒 内 进出 仓位 。 (如 果 你 不 用 为 每 笔 交 易 文 付费 
用 ,那么 即使 是 很 小 的 优势 也 能 融 来 巨额 利润 。) EKETE y EN 
算法 交易 会 考虑 到 基于 大 数据 的 长 期 趋势 。 深 度 学 习 在 赚钱 和 提高 利 
润 方面 做 得 越 来 越 好 。 (21) 预测 金融 市 场 ， 问 题 在 于 数据 嘲 杂 ， 条 件 
不 稳定 一 一 一 场 克 举 或 国际 冲突 可 能 会 导致 投资 者 心态 在 一 人 夜 之 间 发 
生变 化 。 这 意味 着 用 来 预测 今天 股票 价值 的 算法 可 能 到 明天 整 不 准 
了 “。 在 实践 中 ， 被 用 来 赚钱 的 算法 有 数 百 种 ， 表 现 突出 的 则 被 不 断 整 
合 以 实现 最 优 回报 。 
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图 1-6 延迟 vs 头寸 持 有 时间。 在 线 机 器 学 习 正 在 推动 算法 交易 ， 它 比 传统 的 长 期 投资 策略 更 快 
速 ， 比 股票 市 场 中 的 高 频 交 易 更 加 慎重 。 许 多 不 同类 型 的 机 器 学 习 算法 被 组 合 运 用 以 获得 最 佳 
回报 。 


时 在 20 世 纪 80 年 代 ， 我 还 在 为 摩根 士 丹 利 的 股票 交易 神经 网 络 模 
型 提供 咨询 上 时， 过 到 了 专门 设计 并 行 计算 机 的 计算 机 科学 家 大 卫 : 肖 
(David Shaw) 。 哥 伦比 亚 大 学 学 术 休 假期 间 ， 肖 曾 在 自动 化 交易 早 
期 担任 量化 分 析 师 ， 随 后 他 在 华尔街 创立 了 目 己 的 投资 管理 公司 德 动 
集团 (The D. E. Shaw Group) ， 现 在 他 已 经 是 亿 万 富 箔 了 。 德 动 集团 
非常 成 功 ， 但 仍然 逊 于 另 一 家 对 冲 基金 文艺 复兴 科技 公司 
(Renaissance Technologies) 。 这 家 基金 是 由 杰出 的 数学 家 、 纽 约 州立 
大 学 石 溪 分 校 数 学 系 前 主任 詹姆斯 :西蒙 斯 (James Simons) 创立 的 。 
仅 2016 年 ， 西 蒙 斯 就 挣 了 16 亿 美元 ， 这 还 算 不 上 他 最 好 的 一 年 。 [22] 
文艺 复兴 科技 被 称 为 “世界 上 最 好 的 物理 和 数学 系 ，”[23] “ 它 不 会 雇用 
带 有 哪怕 一 点 点 华尔街 正统 味道 的 人 *。 [24] 


不 再 参与 德 动 的 日 常 运 营 后 ， 大 卫 : 肖 现在 专注 于 德 动 研究 所 (D. 
E. Shaw Research) 的 业务 ， 该 研究 所 搭建 了 一 台 名 为 “Anton” 的 专用 并 
行 计算 机 ， 比 全 球 其 他 计算 机 执行 蛋白 质 折 盔 的 速度 都 快 得 多 。 [25] 
西蒙 斯 退休 后 不 再 掌管 文艺 复兴 科技 ， 而 是 建立 了 资助 自 闭 症 及 其 他 
物理 和 生物 科学 项 目 研 究 的 基金 会 。 通 过 加 州 大 学 伯克利 分 校 的 西 壹 
斯 计算 理论 研究 所 (the Simons Institute for the Theory of Computing at 
UC Berkeley) ^ jit 38 L 5E DEB VH S HE SKA HU (the Simons 
Center for the Social Brain at MIT) 和 纽约 毁 斗 研究 院 (the Flatiron 
Institute) ， 西 蒙 斯 的 慈善 事业 对 推进 数据 分 析 、 建 模 和 仿真 的 计算 方 
法 产生 了 重大 影响 。[26] 


更 广泛 的 金融 服务 正在 金融 科技 (fintech) 的 大 背景 下 发 生 大 规模 
转型 。 诸 如 区 块 链 这 样 的 信息 技术 一 一 一 种 安全 的 互联 网 记 账 方式 ， 
取代 了 人 金融 交易 的 中 间 商 一 一 正在 接受 小 规模 的 测试 ， 但 它 很 快 整 会 
扰乱 价值 数 万 亿美 元 的 金融 市 场 。 机 融 学 习 正 在 被 用 于 改进 贷款 信用 
评 佑 ， 准 确 地 提供 业务 和 财务 信息 ， 在 社区 退 体 上 获取 预测 市 场 趋势 
的 信号 ， 并 为 金融 交易 提供 生物 识别 安全 服务 。 谁 拥有 最 多 的 数据 ， 
ELDER, MEAL RAUM SAGE ° 


深度 法 律 : 效率 的 提高 与 费用 的 降低 


深度 学 习 刚刚 开始 影响 法 律 界 。 律 师 事务 所 每 小 时 收费 数 百 美元 
的 法 务 助理 的 大 部 分 日 常 工作 都 将 实现 自动 化 ， 特 别 是 在 高 档 写 字 楼 
办 公 的 规模 化 事务 所 里 。 具 体 点 说 ， 技 术 辅助 审核 或 调查 将 被 人 工 智 
能 接管 ， 它 可 以 浏览 数 千 份 文 件 以 获取 合法 证 据 ， 且 丝毫 不 会 感到 厌 
倦 。 自 动 化 深度 学 习 系统 也 将 帮助 律师 事务 所 遵守 日 益 复杂 的 政府 规 
定 。 这 些 系统 将 为 现在 无 法 负担 律师 费用 的 普通 人 提供 法 律 建议 。 法 
律 工作 不 仅 收费 会 更 便宜 ， 也 会 更 高 效 ， 这 一 点 通常 比 费 用 更 重要 e 
法 律 世界 正在 走向 “深度 法 律 ”。 [27] 


德州 扑克 : IiWLDAREBASET T EREA 


对 一 无 限 注 德州 扑克 是 最 受 欢 迎 的 扑克 玩法 之 一 ， 常 见于 赌 
场 ， 无 限 注 投注 方式 则 通常 出 现在 世界 扑克 系列 赛 (World Series of 
Poker) 的 主 赛事 中 。 扑 克 很 有 挑战 性 ， 因 为 与 国际 象棋 玩家 可 以 获得 
相同 的 信息 不 同 ， 扑 克 玩 家 的 信息 不 完整 ， 而 且 在 最 高 级 别 的 比赛 
中 ， 诈 哮 、 其 编 的 技巧 和 拿 到 的 牌 一 样 重要 。 
数学 家 约 畏 : 冯 : 诺 依 曼 (John von Neumann) 创立 了 数学 博 列 理 
论 ， 也 是 数字 计算 机 之 父 ， 他 就 对 扑克 特别 着 迷 。 他 说 过 : “现实 生活 
包括 虚 张 声势 ， 一 点 欺骗 手段 ， 以 及 自问 男 一 个 人 会 怎么 评判 我 做 事 
的 意图 。 这 就 是 我 理论 中 博弈 的 内 涵 。”[28] 扑克 是 一 种 博弈 ， 反 映 了 
经 过 进化 精炼 过 的 人 类 智能 的 一 部 分 。 一 个 名 为 “DeepStack” 的 深度 学 
习 网 络 和 33 名 职业 扑克 选手 进行 了 44852 场 比赛 。 令 扑克 专家 震惊 的 
是 ， 它 以 相当 大 的 优势 ， 一 个 标准 差 ， 击败 了 最 出 色 的 扑克 玩家 ， 同 
时 以 四 个 标准 差 在 整体 上 击败 了 全 部 33 名 玩家 一 -多么 巨大 的 差距 
( 见 图 1-7) 。 [22] 如 果 这 一 成 就 能 复制 到 其 他 基于 不 完全 信息 、 需 要 
人 来 做 判断 的 重要 领域 ， 比 如 政治 学 和 国际 关系 ， 其 影响 可 能 是 极其 
深远 的 。 [30] 
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图 1-7 一 对 一 无 限 注 德州 扑克 。 强 势 手 牌 。DeepStack 已 经 掌握 了 如 何在 高 筹码 扑克 中 庶 张 声 
势 ， 以 大 比分 优势 击败 职业 扑克 玩家 。 


AlphaGo S: 神经 科学 与 人 工 入 能 的 协同 


2016 年 3 月 ， 韩 国 围棋 界 18 次 世界 冠军 获得 者 李 世 石 (Lee Sedol) 

与 DeepMind 公 司 的 AlphaGo (图 1-8) 一 个 使 用 深度 学 习 网 络 评估 
盘面 形势 和 可 能 的 走 法 的 围棋 程序 一 一 进行 了 5 场 比赛 。[31] 围棋 相对 
国际 象棋 的 难度 ， 相 当 于 国际 象棋 对 跳棋 的 难度 。 如 果 国 际 象棋 是 一 
场 战役 ， 那 么 围棋 就 是 一 场 战 争 。 一 块 19x19 围 棋 棋 盘 比 一 块 8x8 象 棋 
棋盘 大 得 多 ， 这 使 得 在 棋盘 的 不 同 部 分 可 能 同时 发 生 多 场 战 役 。 不 同 
战役 之 间 存 在 长 期 的 相互 作用 ， 即 使 是 专家 也 难以 判断 。 围 棋 的 合法 
棋局 总 数 是 10170 ， 远 远 超过 宇宙 中 的 原子 数量 。 
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图 1-8 韩国 围棋 冠军 李 世 石 对 战 AlphaGo 的 5 场 比赛 里 ， 某 一 场 战 局 中 的 棋 弄 。AlphaGo 是 一 个 
通过 与 自己 下 围棋 来 学 习 的 深度 学 习 神经 网 络 。 


除了 几 个 评估 盘 局 并 选择 最 佳 着 数 的 深度 学 习 网 络 ，AlphaGo 还 有 
一 个 完全 不 同 的 学 习 系 统 ， 用 于 解决 时 间 信用 分 配 问题 : 在 众多 步 棋 
中 ， 哪 一 步 对 赢得 胜利 有 所 贡献 ， 哪 一 步 对 失败 承担 责任 ? 大 脑 的 基 
底 神 经 节 接 收 来 自 整 个 大 脑 皮 层 的 投射 ， 并 投射 回去 ， 利 用 时 间 差 分 
算法 和 强化 学 习 来 解决 这 个 问题 。AlphaGo 使 用 由 基底 神经 节 进 化 出 来 
的 相同 的 学 习 算法 ， 以 评估 最 大 化 未 来 奖励 的 行动 顺序 (这 一 过 程 将 
在 第 10 章 中 做 出 解释 ) 。AlphaGo 通 过 反复 和 自己 下 棋 来 学 习 这 一 技 
能 。 

AlphaGo 和 李 世 石 对 决 的 围棋 比赛 在 亚洲 得 到 了 极 高 的 关注 。 在 亚 
洲 ， 围 棋 冠 军 是 全 国 性 的 公众 人 物 ， 有 着 摇 深 明星 一 样 的 待遇 。 
AlphaGo 早 些 时 候 击败 了 欧洲 的 围棋 冠军 ， 但 是 那 场 比赛 的 水 平 远 低 于 
亚洲 的 最 高 水 平 ， 因 此 李 世 石 并 没有 做 好 打 一 场 硬仗 的 心理 准备 。 即 
使 是 开发 AlphaGo 的 公司 DeepMind， 也 并 不 清楚 他 们 的 深度 学 习 程 序 
到 底 有 多 强大 。 自 上 一 场 比赛 以 来 ，AlphaGo 已 经 与 好 几 个 版 本 的 自己 
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何 种 高 度 。 


AlphaGo 赢 得 了 5 场 比赛 的 前 3 场 后 ， 许 多 人 都 感到 十 分 震惊 ， 因 为 
它 展现 出 了 让 人 意 想 不 到 的 高 水 准 。 这 项 比赛 在 韩国 有 很 高 的 关注 
度 ， 所 有 的 主流 电视 台 都 对 比赛 进行 了 实况 报道 。AlphaGo 有 一 些 着 数 
是 革命 性 的 。 在 第 二 场 比赛 的 第 三 十 八 步 ，AlphaGo 下 出 了 精彩 的 一 
着 ， 让 李 世 石 感到 十 分 惊讶 ， 他 花 了 将 近 10 分 钟 的 时 间 才 决定 下 一 步 
要 怎么 走 。AlphaGo 输 掉 了 第 四 场 比赛 ， 这 是 人 类 挽回 颜面 的 一 场 胜 
利 ， 最 终 它 的 战绩 是 4 胜 1 负 (图 1-9) 。 [32] 3 月 的 夜晚 ， 我 在 圣迭戈 
的 凌晨 兴致 勃勃 地 观看 了 这 场 较 量 。 这 让 我 回想 起 1966 年 6 月 2 日 凌晨 1 


点 ， 我 在 克利 夫 兰 市 ， 坐 在 电视 机 旁 关注 着 “勘测 者 1 号 ”探测 器 降落 在 
月 球 上 ， 并 传 回 了 第 一 张 月 球 照 片 。 [33] 我 亲眼 见证 了 这 些 历 史 时 
刻 。AlphaGo 的 表现 远 远 超出 了 我 和 其 他 许多 人 的 期 待 。 


N 


全 
围棋 挑战 赛 中 输 给 了 AlphaGo 之 后 的 李 世 石 。 


图 1-9 在 2016 年 3 月 


2017 年 1 月 4 日 ， 一 个 名 为 “Master” 的 选手 在 一 个 网 络 围 棋 服务 器 上 
主动 现 身 ， 其 真正 身份 是 AlphaGo 2.0。 在 此 之 前 ， 它 在 与 世界 顶尖 棋 
手 的 比赛 中 取得 了 60 场 全 胜 的 战绩 ， 被 击败 的 棋 手 中 包括 当时 世界 排 
名 第 一 的 高 手 ，19 岁 天 才 棋 手 柯 洁 。AlphaGo 显 露出 了 一 种 能 与 同时 代 
的 佼佼 者 抗衡 的 全 新 风格 。2017 年 5 月 27 日 ， 在 中 国 乌 镇 举办 的 围棋 峰 
会 上 ， 柯 洁 以 3 场 丝 负 的 结果 输 给 了 AlphaGo 〈 见 图 1-10) ° XES E 
以 来 最 精彩 的 几 场 围棋 比赛 ， 数 亿 中 国人 都 观看 了 该 赛事 。“ 去 年 ， 我 
还 觉得 AlphaGo 的 表现 与 人 类 非常 接近 ， 但 今天 我 认为 它 是 ‘围棋 之 
神 *。” 柯 洁 这 样 总 结 道 。 [4 


在 第 一 场 比赛 中 ， 他 以 一 目 半 的 微弱 差距 输 掉 了 比赛 。 柯 洁 说 
他 “在 比赛 中 途 已 经 感觉 快要 赢 了 ”。 他 非常 兴奋 : “我 能 感觉 到 自己 的 
DEERE! 可 能 因为 我 太 兴奋 ， 有 几 步 棋 走 错 了 。 也 许 这 就 是 
人 类 棋 手 最 薄弱 的 部 分 吧 。”[a5] 柯 洁 经 历 了 一 种 情绪 上 的 超 负荷 ， 但 
要 达到 最 佳 状态 ， 更 需要 相对 沉稳 的 情结。 事实 上 ， 和 舞台 演员 们 都 知 
道 ， 如 果 他 们 演出 前 没有 明 里 翻 江 倒 海 的 紧张 感 ， 就 无 法 呈现 出 最 精 
彩 的 演出 。 他 们 的 表演 遵循 一 种 倒 U 形 曲线 ， 即 最 佳 状态 处 于 较 低 和 较 
高 的 兴奋 点 之 间 。 运 动员 把 这 叫 作 “在 状态 ”。 


SFA 
yi) WE 
图 1-10 2017F Æ FE], DeepMindB EX & B48 A FECEOfE-KIT-HA LET (Demis Hassabis, Æ) 
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2017 年 5 月 26 日 ，AlphaGo 还 击败 了 由 5 名 顶尖 棋 手 组 成 的 队伍 。 这 
些 棋 手 都 分 析 过 AlphaGo 的 招数 ， 并 已 经 在 相应 地 改变 自己 的 策略 。 这 
场 比赛 由 中 国政 府 主办 ， 可 以 说 是 一 个 新 版 的 < 乒乓 外 交 ”。 [36] 中 国 
正在 机 器 学 习 方面 投入 大 量 资金 ， 其 大 脑 研 究 计 划 的 一 个 主要 目标 是 
挖掘 大 脑 潜 能 来 创造 新 的 算法 。 [27] 

该 围棋 事件 后 续 的 发 展 可 能 会 更 令 人 惊叹 。 在 开始 跟 自 己 下 棋 之 
前 ，AlphaGo 是 通过 观察 学 习 16 万 次 人 类 围棋 比赛 起 步 的 。 有 人 认为 这 
是 作 浆 一 一 一 个 自主 的 AI 程序 应 该 能 够 在 没有 积累 任何 人 类 知识 的 条 
件 下 学 习 下 围棋 。2017 年 10 月 ， 一 款 名 为 AlphaGo Zero 的 新 版 本 AI 程序 
面世 了 。 它 从 游戏 规则 开始 一 步 步 学 习 下 围棋 ， 击 败 了 曾 战胜 柯 洁 的 
版 本 AlphaGo Master, 425 73100:0 > [38] 此 外 ，AlphaGo Zero 的 学 习 


速度 比 AlphaGo Master 快 100 倍 ， 而 计算 能 力 差 不 多 只 有 后 者 的 1/10。 
完全 忽略 人 类 的 知识 ，AlphaGo Zero 变 成 了 无 敌 超人 。 随 着 机 器 学 习 算 
法 的 不 断 进 步 ，AlphaGo 还 会 变 得 多 么 优秀 ， 并 没有 已 知 的 上 限 。 


AlphaGo Zero 虽 然 没 有 和 人 下 棋 ， 但 仍然 有 许多 围棋 知识 被 人 为 添 
加 到 程序 中 强化 棋艺 的 特征 。 如 果 没 有 任何 围棋 知识 ，AlphaGo Zero 也 
许 仍 有 进一步 改进 的 空间 。 就 像 零 度 可 乐 将 可 口 可 乐 里 所 有 的 热量 分 
离 出 来 一 样 ， 围 模 的 所 有 知识 都 被 从 Alpha Zeot KA LOK o 2i 
Alpha Zero 能 够 更 快 、 更 果断 地 打败 AlphaGo Zero © 132] 为 了 进一步 说 
明 “ 少 就 是 多 ”，Alpha Zero 在 没有 改变 任何 一 个 学 习 参 数 的 情况 下 ， 学 
会 了 如 何以 超人 的 水 准 下 国际 象棋 ， 还 创造 了 人 类 从 未 使 用 过 的 着 
数 。 在 与 Stockfish 这 个 已 经 是 超人 级 别 的 顶级 国际 象棋 程序 的 对 决 中 ， 
Alpha Zero 还 没有 输 过 。 在 一 场 比赛 中 ，Alpha Zero 大 胆 地 牺牲 了 一 个 
象 一 一 这 种 做 法 通常 用 来 获得 位 置 上 的 优势 ， 随 后 又 牺牲 了 王后 ， 这 
步 看 起 来 像 是 个 大 昏 着 儿 ， 直 到 很 多 步 以 后 ，Alpha Zero 冷 不 防 将 了 
军 ， 无 论 是 Stockfish 还 是 人 类 棋 手 都 没 能 预见 到 这 样 的 结果 。 外 星人 
已 经 痢 陆 ， 地 球 从 此 要 改头换面 了 。 
AlphaGo 的 开发 者 DeepMind 于 2010 年 由 神经 学 家 德 米 斯 : 哈 萨 比 斯 
参与 创立 ， 他 曾 在 伦敦 大 学 学 院 的 盖 深 比 计算 神经 科学 部 门 
(University College London’s Gatsby Computational Neuroscience Unit) 
担任 博士 后 研究 员 。 该 部 门 由 彼得 : 达 扬 (Peter Dayan) 领导 ， 达 扬 曾 
是 我 实验 室 的 博士 后 研究 员 ，2017 年 和 雷 蒙 德 :多 兰 (Raymond Dolan) 
以 及 沃 尔 夫 拉 姆 : 舒 尔 欧 (Wolfram Schultz) 共同 获得 了 享有 盛誉 的 “大 
iS” (Brain Prize) ， 以 表彰 他 们 在 奖励 学 习 方面 的 研究 。 合 歌 在 
2014 年 以 6 亿美 元 的 价格 收购 了 DeepMind。 该 公司 雇用 了 400 多 名 工程 
师 和 神经 科学 家 ， 拥 有 学 术 界 和 创业 公司 混合 的 双重 文化 。 神 经 科学 
与 人 工 知 能 之 间 的 协同 作用 日 渐 深入 ， 而 且 还 在 加 速 。 


弗 林 效应 : 深度 学 习 计 人 类 更 加 智能 


AlphaGo 有 智力 吗 ? 除了 “意识 ”这 个 主题 ， 关 于 智力 的 文章 比 心理 
学 中 任何 其 他 主题 都 要 多 得 多 ， 这 两 个 概念 都 很 难 界定 。 自 20 世 纪 30 
年 代 以 来 ， 心 理学 家 就 对 流体 智力 和 晶体 智力 进行 了 区 分 一 流体 智 
力 能 够 将 新 条 件 中 的 推理 和 模式 识别 用 于 解决 新 问题 ， 而 不 依赖 于 以 
前 的 知识 ;晶体 智力 则 依赖 于 先前 的 知识 ， 也 是 标准 智商 测试 (EIQ 
测试 ) 的 对 象 。 流 体 智力 遵循 一 种 抛物 线 式 发 展 轨 迹 ， 在 成 年 早期 达 
到 高 峰 ， 并 随 着 年 龄 的 增长 逐渐 下 降 ， 而 晶体 智力 会 随 年 龄 的 增长 ， 
缓慢 渐进 式 地 提高 ， 直 至 暮年 。AlphaGo 只 在 一 个 相当 狭窄 的 领域 同时 
展现 出 了 晶体 智力 和 流体 智力 ， 但 在 这 个 领域 ， 它 表现 出 了 令 人 惊讶 
的 创造 力 。 专 业 知 识 的 获取 也 是 基于 在 狭窄 领 域 的 学 习 。 我 们 都 是 语 
言 领 域 的 专家 ， 每 天 都 在 使 用 语言 。 

AlphaGo 使 用 的 强化 学 习 算法 可 以 被 用 来 解决 许多 问题 。 这 种 形式 
的 学 习 只 取决 于 在 一 系列 动作 结束 时 给 予 获 胜 者 的 奖励 ， 这 似乎 和 提 
前 做 出 更 好 的 决策 相 矛 盾 。 结 合 了 许多 强大 的 深度 学 习 网 络 ， 就 会 生 
成 许多 领域 相关 的 智能 。 而 且 事实 上 ， 已 经 出 现 了 与 领域 相关 的 不 同 
类 型 智能 ， 例 如 社会 、 情 感 、 机 械 和 建筑 等 的 案例 。 [40] 智力 测试 测 
量 的 一 般 因 素 (general factor, fa Ke AA) 与 这 些 不 同类 型 相关 。 我 
们 有 理由 认真 审视 IQ 测 试 。 自 20 世 纪 30 年 代 首次 测试 智力 以 来 ， 全 人 
类 平均 的 IQ 分 数 每 10 年 会 上 升 三 个 点 ， 这 一 趋势 被 称 为 “ 弗 林 效 
MW" (Flynn effect) 。 对 于 弗 林 效应 有 许多 可 能 的 解释 ， 比 如 更 充足 的 
营养 、 更 完善 的 医疗 体系 ， 以 及 其 他 环境 因素 。[ 代 ] 这 很 有 道理 ， 因 
为 环境 会 影响 基因 调控 ， 从 而 影响 大 脑 内 在 的 连接 ， 行 为 也 会 随 之 发 
生变 化 。[ 生 ] 随 着 人 类 越 来 越 多 地 生活 在 人 造 环境 中 ， 大 脑 正在 以 某 
种 超越 自然 进化 轨道 的 方式 被 塑造 。 在 更 长 的 时 间 内 ， 人 类 是 否 能 一 
直 都 在 变 得 更 聪明 ? 智商 增长 会 持续 多 久 ? 用 电脑 玩 国际 象棋 、 西 洋 
双 陆 棋 和 围棋 的 人 数 自 计 算 机 程序 达到 冠军 级 别 后 一 直 在 稳步 增加 ， 
而 机 器 也 强化 了 人 类 玩家 的 智能 。 [43] 深度 学 习 提 升 的 将 不 仅仅 是 科 
学 研究 人 员 的 智能 ， 还 包括 所 有 行业 从 业 人 员 的 智能 。 


科学 仪器 正 以 惊人 的 速度 产生 数据 。 位 于 日 内 瓦 的 大 型 强 子 对 挤 
机 (LHC) 中 发 生 的 基本 粒子 碰撞 每 年 产生 25PB (1PB=1000TB) 的 数 
据 。 大 型 综合 巡天 望远镜 (LSST) 每 年 将 产生 6PB 的 数据 。 机 器 学 习 
正 被 用 于 分 析 庞大 的 物理 和 天 文 数据 集 ， 其 规模 之 浩大 让 人 类 根本 无 
法 通过 传统 方法 进行 搜索 [44] 例如 ，DeepLensing 是 一 种 神经 网 络 ， 
可 以 识别 遥远 星系 的 图 像 。 这 些 图 像 由 于 光 在 传播 中 因 围绕 周边 星系 
的 “引力 透镜 ”造成 的 光路 偏 折 而 被 扭曲 了 。 这 一 技术 可 以 自动 发 现 许多 
遥远 的 新 星系 。 物 理学 和 天 文学 中 还 有 许多 其 他 类 似 * 大 海 捞 针 ”的 问 
题 ， 而 深度 学 习 能 够 让 传统 的 数据 分 析 方法 如 虎 添 翼 。 


新 教育 体系 ;每 个 人 都 需要 终身 学 习 


银行 在 20 世 纪 60 年 代 后 期 推出 了 面向 银行 账户 持 有 人 的 全 天 候 现 
金 提取 服务 ， 这 对 于 那些 在 银行 正常 营业 时 间 之 外 需要 现金 的 人 来 说 
非常 方便 ， 目 动 提 球 机 (ATM) 从 此 获得 了 阅读 手写 文 票 的 能 力 。 尽 
管 它们 的 存在 减少 了 银行 柜员 的 日 常 工作 量 ， 但 有 越 来 越 多 的 柜员 为 
客户 提供 按揭 和 投资 建议 等 个 性 化 服务 ， 同 时 也 出 现 了 维修 ATM 的 新 
Tee S] 就 如 一 方面 ， 燕 汽机 代替 了 体力 劳动 者 ， 但 另 一 方面 ， 这 
为 能 够 建造 和 维护 蒸汽 机 及 园 动 蒸 汽机 车 的 熟练 工人 提供 了 新 的 就 业 
机 会 。 亚 马 逊 的 在 线 芝 销 也 将 许多 员工 从 当地 实体 零售 店 中 迁移 出 
来 ， 但 同时 也 为 分 配 和 运输 其 商品 ， 以 及 许多 使 用 其 平台 的 企业 创造 
了 38 万 个 新 的 工作 机 会 。 [46] 由 于 现在 需要 人 类 认 知 技能 的 工作 被 自 
动 化 人 工 智能 系统 所 接管 ， 那 些 能 够 创建 和 维护 这 些 系统 的 人 将 会 获 
得 新 的 工作 。 


工作 变动 不 是 什么 新 鲜 事 。19 世 纪 ， 农 场 劳 工 被 机 器 取代 ， 机 器 
也 在 城市 工厂 创造 了 新 的 工作 机 会 ， 所 有 这 些 都 需要 一 个 教育 系统 3 
培训 工人 新 的 技能 。 不 同 之 处 在 于 ， 今 天 ， 由 人 工 智能 开辟 的 新 职位 
除了 需要 传统 的 认 知 技能 之 外 ， 还 需要 新 的 、 不 同 的 、 不 断 变化 的 技 


能 。 AI 所 以 我 们 都 需要 终身 学 习 。 要 做 到 这 一 点 ， 我 们 需要 一 个 以 
家 庭 ， 而 不 是 以 学 校 为 基础 的 新 教育 体系 。 

幸运 的 是 ， 就 像 寻找 新 工作 的 需求 变 得 迫在眉睫 一 样 ， 互 联网 上 
免费 的 大 规模 开放 式 在 线 课 程 莫 课 (MOOCs) 也 应 运 而 生 ， 来 帮助 人 
们 获取 新 的 知识 和 技能 。 虽 然 仍 处 于 初级 阶段 ， 但 莫 课 的 在 线 教育 生 
态 系统 正在 迅速 发 展 ， 并 在 为 更 广泛 的 人 群 据 供 前 所 未 有 的 优质 教 


学 。 与 下 一 代数 字 辅 助 系统 相 结 合 ， 蔡 课 则 可 能 会 之 来 变革 。 芭 芭 拉 : 
奥 克 利 (Barbara Oakley) 和 我 开设 了 一 门 名 为 “学 会 如 何 学 
2]" (Learning How to Learn) 的 莫 课 一 一 该 热门 课程 会 教 你 如 何 成 为 更 
好 的 学 习 者 〈 见 图 1-11) 一 一 以 及 一 门 名 为 “思维 转换 ” (Mindshif) 的 
莫 课 ， 教 你 如 何 改造 自己 并 改变 你 的 生活 方式 (这 两 门 课 将 在 第 12 章 
中 详细 介绍 ) 。 


Learning 
How to Learn 


图 1-11 “学 会 如 何 学 习 ?” 教 你 如 何 成 为 更 好 的 学 习 者 ， 它 是 互联 网 上 最 受 欢 迎 的 莫 课 ， 拥 有 超过 
300 万 学 习 者 。 


进行 网 上 操作 时 ， 其 实 正 在 生成 机 妖 可 读 的 天 于 你 目 己 的 大 数 
据 。 根 据 你 在 互联 网 上 行为 的 蛛丝马迹 ， 你 正在 被 自动 生成 的 相关 广 
告 定位 。 你 在 Facebook (脸谱 网 ) 和 其 他 社交 媒体 网 站 上 发 布 的 信息 可 
被 用 于 创建 数字 助理 ， 它 几乎 比 世 界 上 任何 其 他 人 都 更 了 解 你 ， 并 且 
不 会 遗漏 任何 内 容 ， 实 际 上 束 相 当 于 你 的 虚拟 分 吴 。 通 过 将 互联 网 跟 
踩 和 深度 学 习 都 纳入 服务 ， 现 在 这 些 孩 子 的 后 代 拥 有 的 教育 机 会 将 比 


今天 富裕 家 庭 拥有 的 最 优质 的 教育 机 会 还 要 好 。 这 些 孙 辈 将 拥有 自己 
的 数字 导师 ， 导 师 将 在 整个 教育 过 程 中 陪伴 他 们 。 教 育 不 仅 会 变 得 更 
加 个 性 化 ， 也 会 变 得 更 加 精准 。 世 界 各 地 已 经 开展 了 各 种 各 样 的 教育 
实验 ， 例 如 可 汗 学 院 ， 由 盖 茨 基金 会 、 陈 - 扎 克 伯 格 基金 会 和 其 他 慈善 
基金 会 资助 。 这 些 实验 机 构 正 在 测试 软件 ， 以 便 让 所 有 的 孩子 都 可 以 
根据 自己 的 节奏 进步 ， 并 适应 每 个 儿童 的 特定 需求 。 [48] 数字 导师 的 
普及 将 使 教师 从 教学 中 的 重复 劳动 ， 如 评分 中 解脱 出 来 ， 专 注 于 人 类 
最 擅长 的 事情 一 “对 学 习 困 难 的 学 生 提供 精神 支持 ， 并 给 予 有 天 赋 的 
学 生灵 感 启发 。 教 育 技术 (Edtech) 正在 快速 发 展 ， 与 自动 驾驶 汽车 相 
比 ， 传 统 教育 向 精准 教育 过 渡 的 速度 可 能 相当 快 ， 因 为 它 必 须 克 服 的 
障碍 要 小 得 多 ， 需 求 却 要 大 得 多 ， 而 且 美 国 的 教育 是 一 个 万 亿美 元 的 
mx». (49) 一 个 主要 的 问题 就 是 ， 谁 能 够 访问 数字 助理 和 数字 导师 的 
内 部 文件 。 


正面 影响 : 新 兴 拉 术 不 是 生存 威胁 


AlphaGo 在 2016 年 毫 无 争议 地 击败 了 玲 世 石 ， 这 激化 了 过 去 各 二 年 
引发 的 人 工 智 能 可 能 给 人 类 读 来 威胁 的 担忧 。 计 算 机 科学 家 签署 了 不 
会 将 AI 用 于 军事 目的 的 承 庄 协议 。 斯 蒂 分 .霍金 (Stephen Hawking) 和 
LLRX (Bill Gates) AA ARE, BAA LAR BEN ARER 
的 生存 威胁 。 伊 隆 : 马 斯 克 (Elon Musk) 和 其 他 硅谷 企业 家 成 立 了 一 家 
新 公司 OpenAI， 拥 有 10 亿 美元 储备 金 ， 并 聘请 了 态 弗 里 . 邓 顿 之 前 的 一 
名 学 后 伊利 娅 : 苏 特 斯 科 娃 (IlyaSutskever) 担任 第 一 任 总 监 。 虽 然 
OpenAI 的 既定 目标 是 确保 未 来 人 工 智能 的 发 现 将 公开 供 所 有 人 使 用 ， 
但 它 还 有 另 一 个 隐 含 的 更 重要 的 目标 : 防止 私人 公司 作恶 。AlphaGo 战 
胜 了 围棋 世界 冠军 李 世 石 ， 一 个 临界 点 也 随 之 到 来 。 几 乎 在 一 夜 之 
间 ， 人 工 智能 从 一 项 失败 的 技术 ， 转 变 成 了 可 感知 的 生存 威胁 。 


一 种 新 兴 技 术 被 看 作 生 存 威胁 ， 这 已 经 不 是 第 一 次 了 。 核 武器 的 
发 明 、 改 进 和 储存 曾经 是 一 种 虹 火 全 世界 的 威胁 ， 但 至 少 到 目前 为 
止 ， 我 们 有 能力 阻 止 这 种 情况 的 发 生 。 重 组 DNA 技 术 刚 问世 的 时 候 ， 
人 们 担心 经 人 工 改 造 的 人 致 命 生物 会 从 实验 室 逃 出 来 ， 导 致 全球 疙 围 内 
出 现 难 以 估量 的 痛苦 和 和 死亡。 基因 工程 现在 已 经 是 一 项 成 熟 的 技术 ，， 
目前 我 们 已 经 能 和 它 的 产物 共存 。 与 核武 希 和 致命 生物 相 比 ， 机 器 学 
习 的 最 新 进展 构成 的 威胁 相对 较 小 。 我 们 也 将 适应 人 工 知 能。 事实 
上 ， 这 已 经 在 发 生 了 ° 

DeepStack 的 成 功 带 来 的 其 中 一 个 暗示 是 ， 深 度 学 习 网 络 可 以 学 习 
如 何 成 为 世界 顶级 的 骄子 。 训 练 深层 网 络 能 干什么 只 受 限 于 训练 者 的 
想象 力 和 数据 。 如 果 一 个 网 络 可 以 接受 安全 区 驱 汽 车 的 训练 ， 那 么 它 
也 可 以 被 训练 萄 驶 F 1 赛车 ， 很 可 能 有 人 愿意 为 此 掏腰包 。 今 天 ， 我 们 
仍然 需要 技术 娴熟 和 训练 有 素 的 从 业 人 员 使 用 深度 学 习 来 搭建 产品 和 
服务 ， 但 随 着 计算 能 力 的 成 本 持续 下 降 、 软 件 功能 更 加 目 动 化 ， 很 
快 ， 高 中 生 束 可 能 具备 开发 AI 应 用 程序 的 能 力 了 “。 作 为 德国 收入 最 高 
的 在 线 电 子 商 务 公司 ， 奥 托 (Otto) 主要 经 营 服装 、 家 居 和 体育 用 品 。 
它 正 在 利用 深度 学 习 ， 根 据 历 史 订 单 信 息 预 测 客户 未 来 可 能 购买 的 产 
品 ， 并 提前 为 他 们 下 单 。 [90] 客户 几乎 在 订购 前 就 收 到 了 自己 想 订购 
的 商品 ， 准 确 率 达 到 90%“。 上 自动 完成 工作 且 无 须 人 工 干 预 ， 这 种 预订 操 
作 不 仅 可 以 每 年 为 公司 在 剩余 库存 和 退货 环节 和 省 数 百 万 欧元 ， 还 提 
高 了 客户 满意 度 和 保有 率 。 深 度 学 习 显著 提高 了 奥 托 公司 的 生产 力 ， 
却 并 没有 取代 它 的 工人 。 人 工 智 能 可 以 让 你 在 工作 中 更 高 效 。 

虽然 主要 的 高 科技 公司 开拓 了 深度 学 习 的 应 用 ， 但 机 器 学 习 工 具 
已 经 普遍 存在 了 ， 许 多 其 他 公司 也 开始 从 中 受益 。Alexa 是 一 个 广 受 欢 
迎 的 数字 助理 ， 与 亚马逊 Echo 智能 音箱 配合 使 用 ， 能 够 基于 深度 学 习 
对 自然 语言 发 出 的 请 求 做 出 回应 。 亚 马 逊 网 络 服务 (AWS) 引入 了 名 
为 “Lex”、“Poly” 和 “Comprehend” 的 工具 箱 ， 可 以 分 别 基于 目 动 化 文 
字 、 语 首 转 换 、 语 首 识 别 和 目 然 语言 理解 ， 方 便 地 开发 相同 的 目 然 语 


言 界面 。 具 有 对 话 交互 能 力 的 应 用 程序 现在 可 供 无 力 雇用 机 器 学 习 专 
家 的 小 型 企业 使 用 。 企 业 通过 应 用 这 一 程序 可 以 提高 客户 满意 度 。 


当 最 好 的 人 类 棋 手 在 计算 机 程序 面前 都 黯然 失色 时 ， 人 类 会 不 再 
FEB? 正 相 反 ， 人 工 智能 会 提高 人 类 的 竞技 水 平 ， 也 使 得 棋 类 竞技 
更 加 大 众 化 。 顶 级 的 国际 象棋 选手 曾经 都 来 自 莫 斯 科 和 纽约 等 大 城 
市 。 这 些 地 方 大 师 云集 ， 可 以 教授 年 轻 棋 手 并 提高 他 们 的 技能 水 平 。 
国际 象棋 电脑 程序 使 得 在 挪威 小 镇 长 大 的 马 格 努 斯 :卡尔 森 (Magnus 
Carlson) 13 岁 就 成 为 国际 象棋 大 师 ， 如 今 他 已 是 世界 国际 象棋 冠军 。 
人 工 智能 不 仅 对 游戏 产生 了 正面 的 影响 ， 更 会 推动 人 类 付 诸 努力 的 各 
个 方面 ， 从 艺术 到 科学 。AI 可 以 让 你 变 得 更 聪明 。 [91] 


回 色 未 来 : SARA BEB A LE 


本 书 有 两 个 相互 交织 的 主题 ， 人 类 智能 是 如 何 进 化 的 ， 以 及 人 工 
智能 会 如 何 演 变 。 这 两 种 智能 之 间 的 巨大 差异 在 于 ， 人 类 乔 能 的 进化 
经 历 了 数 百 万 年 的 时 间 ， 而 人 工 智能 在 最 近 几 十 年 才 发 展 起 来 。 尽 管 
对 于 文化 演变 来 说 ， 这 个 速度 仍然 是 快 得 出 奇 ， 但 是 过 于 谨 小 慎 微 可 
能 并 不 是 个 正确 的 选择 。 

深度 学 习 在 近期 取得 的 突破 ， 并 不 是 你 从 新 闻 报 道中 读 到 的 那 种 
一 夜 成 功 。 从 基于 符号 、 逻 辑 和 规则 的 人 工 稚 能 辐 基 于 大 数据 和 学 习 
算法 的 深度 学 习 网 络 的 转变 ， 其 背后 的 故事 通常 并 不 为 人 所 熟知 。 本 
书 介绍 了 这 个 故事 ， 并 从 我 的 角度 探讨 了 深度 学 习 的 起 源 和 成 采 。 作 
为 20 世 纪 80 年 代 开 发 神经 网 络 学 习 算 法 的 先行 着 和 NIPS 基 金 会 的 主 
席 ， 我 亲身 经 历 了 过 去 30 年 机 器 学 习 和 深度 学 习 的 发 展 过 程 。 我 和 同 
在 促 经 网 络 领 域 的 同事 多 年 来 部 未 能 取得 令 人 瞩目 的 成 束 ， 但 坚持 和 
耐心 最 终 给 我 们 市 来 了 回报 。 
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02 
人 工 智能 的 重生 


马 文 . 明 斯 基 是 一 位 杰出 的 数学 家 ， 也 是 麻 省 理工 学 院 人 工 智能 实 
验 室 (以 下 简称 MIT AI Lab) H 的 创始 人 之 一 。 创 始 团队 确定 了 这 个 
领域 的 方向 和 文化 。 麻 省 理工 学 院 的 人 工 智 能 研究 在 20 世 纪 60 年 代 成 
了 聪明 人 的 阵地 ， 这 在 很 大 程度 上 要 归功 于 明 斯 基 。 他 每 分 钟 冒 出 的 
新 点 子 比 我 认识 的 任何 人 都 多 ， 而 且 能 让 你 相信 他 对 一 个 问题 的 看 法 
是 对 的 ， 尽 管 这 个 看 法 会 让 人 觉得 有 悖 常识 。 我 很 钦佩 他 的 大 胆 和 宕 
智 ， 但 是 并 不 认同 他 研究 AI 所 选择 的 方向 。 


看 似 简 单 的 视 禹 识别 


积木 世界 (Blocks World) 是 MIT AI Lab 在 20 世 纪 60 年 代 推 出 的 一 
个 项 目 典 范 。 为 了 简化 视觉 问题 ， 积 木 世 界 由 矩形 积木 组 成 ， 可 以 挫 
县 起 来 组 成 新 的 结构 〈 见 图 2-1) 。 该 项 目的 目标 是 编写 一 个 能 够 理解 
命令 的 程序 ， 例 如 “找到 一 个 大 的 黄色 积木 并 将 其 放 在 红色 积木 上 面 ””， 
并 规划 出 让 机 器 人 手臂 执行 命令 所 需 的 步 台 。 这 看 起 来 像 小 孩子 玩 的 
游戏 ， 但 却 需要 编写 一 个 庞大 而 复杂 的 程序 来 实现 。 这 个 程序 后 来 变 
得 十 分 元 长 烦琐 ， 以 至 于 编写 该 程序 的 学 生 特 里 : 维 诺 格 拉 德 (Terry 
Winograd) 离开 该 实验 室 之 后 ， 该 程序 因为 错误 百出 ， 频 频 裔 泪 ， 最 
终 被 无 奈 地 放弃 了 “。 这 个 看 起 来 很 简单 的 问题 比 任 何人 想象 的 都 要 难 
得 多 ， 即 使 成 功 了 ， 也 很 难 把 积木 世界 同 现实 世界 顺利 地 连接 起 来 ， 
毕竟 在 现实 世界 中 物体 有 不 同 的 形状 、 大 小 和 重量 ， 而 且 并 非 所 有 边 
角 都 是 直角 。 相 比 于 照明 的 方向 和 位 置 都 能 固定 的 可 控 实 验 环境 ， 在 


现实 世界 中 ， 照 明 可 能 因 地 点 和 时 间 的 不 同 而 发 生 显著 变化 ， 这 极 大 
地 增加 了 计算 机 物体 识别 任务 的 复杂 性 。 
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图 2-1 ny. 明 斯 基 在 观察 机 器 人 堆积 林 (照片 拍摄 于 1968 年 左右 ) 。 积木 世 界 是 我 们 如 何 与 世 
Je 但 它 面 对 的 问题 比 任何 人 想象 的 都 要 复杂 得 多 ， 直 到 2016 年 才 通 过 深度 学 
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20th 24 604E C, MIT AILab 获 得 了 来 自 一 个 军事 研究 机 构 的 大 笔 
资金 ， 被 要 求 用 于 打造 一 个 可 以 打 乒 乓 球 的 机 器 人 。 我 曾经 听 过 一 个 
故事 ， 那 就 是 这 个 项 目的 负责 人 忘 了 在 基金 申请 书 中 加 上 为 机 器 人 建 

立 一 个 视觉 系统 的 预算 ， 于 是 他 把 这 个 问题 分 配给 了 一 个 研究 生 作 为 
后 来 我 问 马 文 . 明 斯 基 这 个 故事 是 不 是 真 的 。 他 反 驱 

: “我 们 把 那个 问题 分 配给 了 本 科 生 。”MIT 档 案 中 的 一 份 文件 证 实 了 
MGE MA 看 上 去 很 容易 解决 的 问题 ， 最 终 被 证 明 是 个 “ 陷 
阱 ”， 大 噬 了 整整 一 代 计算 机 视觉 研究 人 员 的 青春 。 


VEROBUUM see 


尽管 物体 的 位 置 、 大 小 、 方 向 和 受到 的 光照 不 同 ， 我 们 却 很 少 在 
识别 物体 时 感到 吃力 。 计 算 机 视觉 研究 中 最 早 的 想法 之 一 是 将 物体 的 
模板 与 图 像 中 的 像素 进行 匹配 ， 但 是 这 种 方法 收效 甚 徽 ， 因 为 同一 物 
体 不 同 角 度 的 两 个 图 像 中 的 像素 并 不 匹配 。 例 如 ， 参 考 图 2-2 中 的 两 只 
鸟 。 如 有 果 你 将 一 只 乌 的 影像 履 盖 到 男 一 只 鸟 上 ， 你 可 以 找到 一 块 匹 配 
的 部 分 ， 但 其 余部 分 束 完 全 对 不 上 了 ; 但 是 如 果 有 男 一 个 种 类 的 乌 相 
同 姿 势 的 图 像 ， 你 却 可 以 得 到 相当 好 的 匹配 结 末 。 


计算 机 视觉 的 进步 是 通过 关注 特征 而 非 像 素来 实现 的 。 例 如 ， 赏 
鸟 者 必须 具备 专业 水 平 才 能 区 分 只 在 一 些 细微 处 略 有 差异 的 不 同 乌 


类 。 一 本 关于 乌 类 鉴别 的 实用 畅销 书 中 只 有 一 张 乌 的 照片 ， 却 有 许多 
示意 图 指出 了 各 种 鸟 之 间 的 细微 差别 ( 见 图 2-3) 。 [DJ 一 个 好 的 特征 
征 指 一 种 马 类 独 有 的 特征 ， 但 是 如 入 在 别 的 种 类 中 也 可 以 找到 这 些 特 
征 ， 那 么 就 要 靠 经 带 、 眼 纹 和 经 斑 的 独特 标记 组 合 来 区 分 。 当 这 些 标 
记 组 合 为 近 杀 种 类 所 共享 时 ， 就 要 根据 叫 声 和 歌声 进一步 区 分 。 乌 类 
的 草图 或 彩绘 能 更 好 地 将 我 们 的 注意 力 引 导 到 相关 的 区 别 特征 上 ， 相 
比 之 下 ， 乌 类 照 斤 里 则 布 满 了 数 百 个 不 太 相 关 的 特征 。 


图 2-2 两 只 斑 胸 章光 在 互相 审视 对 方 。 我 们 不 难看 出 它们 是 同一 物种 。 但 是 因为 它们 面 对 镜 头 
的 角度 不 同 ， 所 以 很 难 将 它们 与 模板 对 应 ， 即 使 它们 具有 几乎 相同 的 特征 。 


图 2-3 可 用 于 区 分 相似 乌 类 的 显著 特征 。 箭 头 指 向 的 是 翼 融 的 位 置 ， 对 于 分 辨 芍 科 非常 重要 ; 
有 的 轮廓 清晰 ， 有 的 界线 模糊 ， 有 的 是 双 条 的 ， 有 的 长 ， 有 的 短 。 图 片 来 源 : Peterson, 
Mountfort, and Hollom, Field Guide tothe Birds of Britain and Europe , 5th ed., p.16。 


这 种 基于 特征 的 识别 方法 存在 的 问题 ， 不 仅 在 于 针对 世界 上 数 万 
种 不 同 物体 开发 特征 检测 器 是 非常 耗费 人 力 的 ， 而 且 即 便 使 用 最 精确 
的 特征 检测 器 ， 被 部 分 遮挡 住 的 物体 的 图 像 也 会 产生 上 义 ， 这 使 得 识 
别 混乱 场景 中 的 物体 成 了 计算 机 所 面临 的 一 项 艰巨 任务 。 


20 世 纪 60 年 代 ， 没 有 人 能 想到 我 们 要 人 花 上 50 年 ， 计 算 机 的 运算 能 
力 需要 提升 100 万 倍 ， 才 能 让 计算 机 视觉 达到 人 类 的 水 平 。 当 时 有 一 种 
带 有 误导 性 的 直觉 ， 认 为 编写 计算 机 视觉 程序 很 容易 。 这 种 直觉 是 基 
于 我 们 认为 很 简单 的 行为 ， 例 如 看 、 听 、 四 处 走动 一 一 但 这 些 行为 是 
经 过 了 几 百 万 年 的 目 然 进化 才 实 现 的 。 让 早期 AI 先 驱 十 分 忻 恼 的 是 ， 
他 们 发 现 计算 机 视觉 问题 非常 难以 解决 。 相 比 之 下 ， 他 们 发 现 通 过 编 
写 程序 让 计算 机 证 明 数 学 定理 要 容易 得 多 一 一 这 个 过 程 曾 被 认为 需要 
最 高 水 平 的 智能 一 一 因为 计算 机 处 理 逻 辑 问题 的 能 力 比 人 类 要 强 得 
多 。 逻 辑 思维 是 进化 后 期 的 产物 ， 即 便 对 于 人 类 ， 也 需要 接受 从 逻辑 
命题 到 得 出 严 刘 结论 的 长 期 训练 。 然 而 ， 对 于 大 多 数 我 们 所 面临 的 生 
存 问 题 ， 从 以 往 经 验 中 忌 结 出 的 解决 方案 ， 在 大 部 分 时 间 都 能 发 挥 作 
用 。 


HHA TRNA RELAIS 


20 世 纪 七 八 十 年 代 流 行 的 人 工 智能 专家 系统 ， 被 开发 用 以 通过 遵 
循 一 套 规 则 来 解决 医学 诊断 等 问题 。 因 此 ， 一 个 早期 的 专家 系统 
MYCIN， 被 开发 用 于 识别 导致 感染 性 疾病 如 细菌 性 脑膜 炎 的 细菌 。 [4] 
根据 专家 系统 方法 ，MYCIN 的 开发 者 首先 要 收集 由 传染 病 专家 提供 的 
事实 和 规则 ， 以 及 病人 的 症状 和 病史 ， 然 后 将 信息 输入 系统 中 的 计算 
机 ， 最 后 通过 编写 程序 让 计算 机 使 用 逻辑 进行 推理 。 然 而 ， 开 发 者 在 
收集 专家 提供 的 事实 和 规则 时 遇 到 了 麻烦 ， 尤 其 是 在 更 复杂 的 领域 ， 
最 好 的 诊断 医师 并 不 依赖 规则 ， 而 是 依靠 难以 编码 的 基于 经 验 的 图 案 
识别 ， [3] 而 且 他 们 的 系统 必须 随 着 新 发 现 的 诞生 和 旧 规 则 的 过 时 而 不 
断 更 新 。 开 发 者 在 收集 和 输入 病人 的 症状 和 病史 信息 时 遇 到 了 更 多 的 
困难 。 录 入 每 个 病人 的 信息 需要 花 上 半 小 时 或 更 长 的 时 间 ， 忙 碎 的 医 
生 们 根本 腾 不 出 这 么 多 时 间 。 因 此 ，MYCIN 从 未 被 应 用 于 临床 是 预料 
之 中 的 事 。 尽 管 有 许多 针对 其 他 应 用 的 专家 系统 被 开发 了 出 来 ， 例 如 
有 毒物 质 泄漏 管理 、 自 动 驾驶 车 辆 的 任务 规划 ， 以 及 语音 识别 等 ， 但 
如 今 ， 这 些 系 统 在 实际 生活 中 很 少 被 用 到 。 

研究 人 员 在 人 工 智 能 发 展 早期 尝试 了 许多 不 同 的 方法 ， 这 些 方法 
通常 都 很 巧妙 ， 但 并 不 实用 。 他 们 不 仅 低估 了 现实 世界 问题 的 复杂 
性 ， 而 且 提 出 的 解决 方案 无 法 进行 大 规模 应 用 。 在 复杂 的 领域 中 ， 规 
则 的 数量 可 能 会 非常 庞大 ， 并 且 随 着 新 的 事实 的 出 现 而 不 断 被 添加 ， 
跟踪 所 有 规则 的 例外 情况 并 与 之 互动 变 得 十 分 不 切实 际 。 例 如 ， 道 格 
拉 斯 - 勒 奈 (Douglas Lenat) 在 1984 年 启动 了 一 个 名 为 “Cyc” 的 项 目 ， 想 
要 将 常识 代码 化 ， 这 在 当时 似乎 是 一 个 好 主意 ， 但 实际 操作 起 来 却 成 
TAEA [6l 我 们 对 世界 上 的 大 量 事实 都 觉得 理所当然 ， 其 中 大 部 
分 都 是 基于 经 验 。 例 如 ， 从 40 英 尺 的 高 度 落下 的 猫 可 能 会 毫发 无 损 ， 
[7] 但 是 从 同一 高 度 险 落 的 人 就 不 同 了 。 


早期 AI 进展 得 如 此 缓慢 的 另 一 个 原因 是 ， 数 字 计 算 机 还 处 于 非常 

原始 的 阶段 ， 并 且 以 今天 的 标准 来 看 存储 器 成 本 十 分 高 昂 。 但 是 由 于 
数字 计算 机 在 逻辑 运算 、 符 号 操作 和 规则 应 用 方面 非常 高 效 ， 这 些 计 
算 原 语 在 20 世 纪 会 受到 青睐 并 不 令 人 惊讶 。 这 也 促使 了 卡 内 基 - 梅 隆 大 
学 (Carnegie Mellon University) 的 两 位 计算 机 科学 家 艾 伦 : 纽 维尔 

(Allen Newell) 和 赫 伯 特 : 西 蒙 (Herbert Simon) 于 1955 年 写成 了 一 套 
名 为 “逻辑 理论 家 ”的 计算 机 程序 ， 它 可 以 证 明 《数学 原理 》 

(Principia Mathematica ) 一 书 中 的 逻辑 定理 。《 数 学 原理 》 是 阿尔 弗 
雷 德 : 怀 特 海德 (Alfred North Whitehead) 和 伯 特 兰 : 罗 素 (Bertrand 
Russell) 莹 试 把 所 有 的 数学 知识 系统 化 的 一 套 书 。 这 一 时 期 ， 人 们 对 
于 智能 电脑 即将 到 来 寄予 了 厚望 。 

那些 试图 编写 具有 人 类 智能 的 计算 机 程序 的 AI 先 驱 ， 本 号 并 不 太 

天 心 大 脑 是 如 何 实现 智能 行为 的 。 我 问 艾 伦 : 纽 维尔 其 中 的 缘由 ， 他 告 
诉 我 ， 他 本 人 对 大 脑 研究 的 见解 持 开 放 态 度 ， 但 当时 根本 没有 足够 的 
相关 信息 可 以 借鉴 。 大 脑 功能 的 基本 原理 在 20 世 纪 50 年 代 才 慢 慢 开始 
被 揭 开 ， 相 关 领 域 的 带头 人 包括 艾 伦 : 霍 奇 金 (Alan Hodgkin) 和 安 德 
=. is 28 (Andrew Huxley) ， 他 们 解释 了 大 脑 信 号 是 如 何 通 过 神经 中 
的 电 脉冲 来 实现 远 距 离 传送 的 ， 而 另 一 带头 人 伯 纳 德 . 卡 次 (Bernard 
Katz) 则 发 现 了 这 些 电子 信号 如 何 经 突 触 转化 为 化 学 信号 来 实现 神经 元 
间 的 通信 。 [8l 


到 了 20 世 纪 80 年 代 ， 人 们 对 大 脑 的 了 解 日 益 增 加 ， 并 且 在 生物 学 
领域 以 外 对 大 脑 的 接触 也 变 得 更 加 广泛 ， 但 对 于 新 一 代 的 AI 研究 人 员 
来 说 ， 大 脑 本 身 已 经 变 得 无 关 紧 要 了 。 他 们 的 目标 是 编写 一 个 程序 ， 
使 其 拥有 和 大 脑 一 样 的 功能 。 在 哲学 里 ， 这 种 立场 被 称 为 "功能 主义 ”， 
对 许多 人 来 说 ， 这 是 一 个 可 以 忽略 生物 学 中 杂乱 细 世 的 绝 佳 说 辞 。 但 
征 一 小 群 不 属于 主流 群体 的 AI 研究 人 员 认 为 ， 受 大 脑 生 物 学 局 发 的 那 
些 被 称 为 "神经 网 络 ”`\“ 连 搂 主 义 ? 和 “并 行 分 布 处 理 ? 的 AI 实现 方法 ， 会 
最 终 解 决 困扰 基于 逻辑 的 AI 研究 的 难题 。 我 正 是 那 一 小 群 人 中 的 一 
^N o 
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1989 年 ，MIT 计 算 机 科学 实验 室 主任 迈克 尔 - 德 图 伍 斯 (Michael 
Dertouzos) 邀请 我 到 MIT 做 一 个 有 关 我 在 基于 神经 网 络 的 人 工 智 能 领 
域 采 用 的 开拓 性 研究 方法 的 “杰出 学 者 讲座 ”( 图 2-4) 。 到 场 后 ， 我 受 
到 了 德 图 佐 斯 的 热情 接待 。 乘 电梯 时 他 告诉 我 : “MIT 有 个 传统 ， 杰 出 
学 者 讲座 的 演讲 者 需要 在 午餐 时 用 5 分 钟 的 时 间 与 教师 和 学 生 一 起 讨论 
他 的 讲座 话题 。”* 而 且 ，? 当 电梯 门 打开 时 ， 他 补充 道 , “他 们 挺 反感 你 
在 做 的 事情 。” 


图 2-4 我 在 介绍 大 脑 皮 层 的 比例 法 则 ， 那 是 在 1989 年 我 加 入 索 尔 克 生 物 研 究 所 (Salk Institute) 
不 久 后 。 图 片 来 源 : Ciencia Explicada ° 


房间 里 挤 满 了 差不多 一 百人 ， 德 图 佐 斯 也 很 意外 。 科 学 家 们 站 成 
一 个 圈 ， 足 足 有 三 层 : 高 级 教员 在 第 一 层 ， 第 二 层 是 初级 教员 ， 学 生 
在 最 后 一 层 。 我 走 到 圆圈 的 中 心 ， 正 对 着 自助餐 的 主 菜 。 我 要 在 这 5 分 
钟 里 说 些 什么 ， 才能 让 那些 讨 大 我 工作 的 人 改变 想法 呢 ? 


我 开始 即兴 发 挥 , “食物 上 这 只 苍 量 的 大 脑 只 有 10 万 个 神经 元 ; "E 
大 概 重 1 毫克 ， 要 消耗 1 训 瓦 的 能 量 ，” 我 边 说 边 驱 赶 苑 蝇 , “苍蝇 能 
能 飞 ， 可 以 自己 确定 飞行 方向 ， 还 能 砚 食 。 但 最 不 可 思议 的 是 ， 它 可 
以 通过 繁殖 来 进行 自我 复制 。MIT 拥 有 一 台 价 值 1 亿美 元 的 超级 计算 
机 : 它 消 耗 的 能 量 是 兆 瓦 级 的 ， 并 需要 一 台 巨 型 空调 进行 冷却 。 但 
是 ， 超 级 计算 机 的 最 大 成 本 是 要 消耗 大 量 人 力 ， 也 就 是 说 程序 员 要 满 
足 它 对 程序 的 巨大 需求 。 这 台 超 级 计算 机 不 能 看 ， 不 能 飞 ， 虽 然 它 能 
与 其 他 计算 机 交流 ， 但 它 不 能 交配 或 自我 复制 。 看 得 出 这 个 场景 描述 
里 有 什么 问题 吗 ? ” 

在 一 段 长 时 间 的 沉默 之 后 ， 一 位 高 级 教员 说 道 : “因为 我 们 还 没有 
编写 视觉 程序 。 ”美国 国防 部 最 近 向 其 战略 计算 计划 注入 了 6 亿美 
元 ， 这 项 计划 在 1983 一 1993 年 间 运 行 ， 但 是 缺少 了 为 目 动 要 驶 坦克 创 
建 的 视觉 系统 ) 。 Dl 我 的 回答 是 “ 祝 你 好 运 ”。 


在 座 的 有 杰 拉 德 . 苏 斯 曼 (Gerald Sussman) , [73 FH A TE BEREUR 
现实 世界 的 问题 做 出 了 几 个 重要 的 应 用 ， 其 中 包括 高 精度 轨道 力学 积 
分 系统 ， 为 MIT 致 敬 图 灵 经 典 杰 作 的 AI 实现 方法 挽回 了 苯 严 (图 灵 曾 证 
明 图 灵机 ， 即 一 个 思维 实验 ， 可 以 计算 任何 可 计算 的 函数 ) 。“ 那 需要 
多 长 时 间 ? RA o ARRERA A, TURRA MAT o” RIE 
道 ， 然 后 走 到 房间 男 一 头 给 自己 倒 了 一 杯 咖啡 。 我 与 教员 的 对 话 就 这 
FFER T ° 

“这 个 场景 出 了 什么 问题 ? "是 我 实验 室 的 每 个 学 生 都 能 回答 的 问 
题 。 但 是 在 午餐 时 间 ， 前 两 排 观众 都 被 难 倒 了 。 最 后 ， 第 三 排 的 一 名 
学 生 这 样 回答 : “数字 计算 机 是 一 种 通用 设备 ， 它 可 以 被 编程 来 计算 任 
何 东 西 ， 虽 然 效 率 很 低 ， 但 苍蝇 是 一 种 专用 计算 机 ， 可 以 看 和 飞 ， 但 
无 法 平衡 我 的 账户 收 支 。” 这 就 是 正确 答案 。 苍 蝇 眼 中 的 视觉 网 络 进 化 
了 数 亿 年 ， 其 视觉 算法 做 入 了 它 本 吴 的 网 络 。 这 了 束 是 为 什么 你 可 以 利 
用 苍蝇 眼神 经 回路 的 布线 图 和 信息 流 对 视觉 系统 进行 敢 同 工程 ， 以 及 


为 什么 你 不 能 在 数字 计算 机 上 这 样 做 ， 因 为 硬件 本 身 需 要 软件 来 指定 
要 解决 什么 问题 。 

我 认 出 了 在 人 群 中 微笑 的 罗 德 尼 : 布 鲁 克 斯 (Rodney Brooks) 。 我 
曾经 邀请 他 参加 在 马萨诸塞 州 鳃 鱼 角 的 伍 效 霍 尔 市 (Woods Hole) 举 
办 的 计算 神经 科学 研讨 会 。 布 鲁 克 斯 是 澳大利亚 人 ，20 世 纪 80 年 代 ， 
他 是 MIT AI Lab 的 初级 教员 。 那 段 时 间 他 使 用 不 依赖 数字 逻辑 的 构架 
搭建 了 的 行 昆虫 机 器 人 。 他 后 来 成 了 实验 室 主 管 ， 随 后 又 创建 了 打造 
出 Roombas 的 公司 iRobot ° 


那天 下 午 我 做 演讲 的 房间 很 大 ， 挤 满 了 本 科 生 ， 新 生 代 想 要 展望 
未 来 ， 而 不 是 徘徊 在 过 去 。 我 谈 到 了 一 个 学 习 如 何 玩 西洋 双 陆 棋 的 神 
经 网 络 ， 这 是 一 个 与 伊利 诺 伊 大 学 香槟 分 校 (the University of Illinois in 
Urbana-Champaign) 复杂 系统 研究 中 心 (Center for Complex Systems 
Research) 的 物理 学 家 杰 拉 德 特 索 罗 (Gerald Tesauro) 合作 的 项 目 。 
西洋 双 陆 棋 是 两 名 玩家 之 间 的 比赛 ， 棋 子 根据 掷 般 子 的 点 数 癌 前 移 
动 ， 在 途中 可 以 跳 过 对 方 的 模子。 与 具有 确定 性 的 国际 象棋 不 同 ， 西 
洋 双 陆 棋 是 由 侦 然 因素 控制 的 :每 次 毛 角 子 的 不 确定 性 都 使 得 对 特定 
棋 步 结 采 的 预测 更 加 困难 。 这 是 一 款 在 中 东 地 区 非常 受 欢迎 的 游戏 ， 
其 中 一 些 人 以 玩 高 赌注 的 比赛 为 生 。 


考虑 到 有 1020 个 可 能 的 西洋 双 陆 棋 棋 盘 摆 法 ， 基 于 逻辑 和 试探 法 
编写 程序 来 处 理 所 有 可 能 的 摆 法 将 会 是 一 个 不 可 能 完成 的 任务 。 于 
是 ， 我 们 让 神经 网 络 观看 教师 对 局 ， 通 过 模式 识别 来 学 习 下 棋 。 [10] 
杰 拉 德 后 来 让 西洋 双 陆 棋 网 络 通过 跟 自 己 下 棋 进 行 学 习 ， 创 建 了 第 一 
个 世界 冠军 级 别 的 西洋 双 陆 棋 程序 (第 10 章 会 详细 讲述 这 个 故事 ) 。 

演讲 结束 之 后 ， 我 听 说 那天 早上 《纽约 时 报 》 有 一 篇 关于 政府 机 
构 如 何 大 幅 削 减 人 工 智能 资金 投入 的 头 版 文章 。 虽 然 对 主流 AI 研究 人 
员 来 说 ， 寒 冬 已 经 来 临 ， 但 它 并 没有 影响 到 我 和 我 的 研究 组 成 员 ， 对 
我 们 来 说 ， 神 经 网 络 的 春天 才刚 刚 到 来 。 


然而 我 们 新 的 AI 实现 方法 需要 25 年 的 时 间 才 能 在 视觉 、 语 音 和 语 
言 方面 提供 实际 应 用 。 即 使 在 1989 年 ， 我 也 知道 这 需要 很 长 时 间 。 
1978 年 ， 我 还 在 普林斯顿 大 学 读 研究 生 时 融 在 想 ， 按 照 摩 尔 定律 ， 计 
算 机 的 运算 能 力 会 硅 指 数 级 增长 ， 每 18 个 月 翻 一 番 ， 那 达到 大 脑 的 计 
算 能 力 需要 多 长 时 间 ? 我 的 结论 是 ， 到 2015 年 会 实现 。 笠 运 的 是 ， 这 
并 没有 阻止 我 继续 探索 。 我 对 神经 网 络 的 信仰 是 基于 我 的 直觉 ， 即 如 
果 大 目 然 解决 了 这 些 问题 ， 我 们 也 应 该 能 够 从 大 目 然 中 学 习 到 同样 的 
解决 方法 。 而 我 不 得 不 耐心 等 每 的 这 25 年 ， 与 目 然 界 的 数 亿 年 相 比 ， 
它 仅 仅 只 是 一 个 瞬间 。 

在 视觉 皮层 内 部 ， 神 经 元 呈 多 层次 排列 结构 。 随 着 感官 信息 在 皮 
层 间 层 层 传 递 ， 对 世界 的 呈现 也 变 得 越 来 越 抽 象 。 几 十 年 来 ， 随 着 神 
经 网 络 模型 层 数 的 增加 ， 其 性 能 也 在 不 断 提高 ， 直 到 最 终 达 到 了 一 个 
临界 点 ， 让 我 们 能 够 解决 在 20 世 纪 80 年 代 只 能 幻想 却 无 法 解决 的 问 
题 。 深 度 学 习 可 以 自动 找 出 能 区 分 图 像 中 不 同 物体 的 优质 特征 的 过 
程 ， 这 束 古 今天 的 计算 机 视觉 比 5 年 前 好 得 多 的 原因 。 


到 2016 年 ， 计 算 机 的 运行 速度 已 经 快 了 上 百 万 倍 ， 计 算 机 内 存 也 
从 兆 字 节 升 级 到 了 太 字 节 (terabytes) 。 与 20 世 纪 80 年 代 只 有 数 百 个 单 
元 和 数 千 个 连接 的 网 络 相 比 ， 现 在 模拟 出 的 神经 网 络 具 有 数 百 万 个 单 
元 和 数 十 亿 个 连接 。 尽 管 按 照 拥 有 数 千 亿 个 神经 元 和 千 万 亿 个 突 触 连 
接 的 人 类 大 脑 的 标准 来 看 ， 这 个 数字 仍然 很 小 ， 但 现 有 神经 网 络 的 规 
模 已 经 可 以 在 有 限 领域 中 进行 原理 的 证 明 。 


基于 深度 神经 网 络 的 深度 学 习 已 经 出 现 了 ， 但 在 有 深度 网 络 之 
前 ， 我 们 必须 学 习 如 何 训练 浅 层 网 络 。 
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03 
神经 网 络 的 黎明 


任何 人 工 智能 的 难题 都 可 以 被 解决 。 唯 一 能 证 明 这 一 论断 成 立 的 是 
这 样 一 个 事实 : 目 然 界 通 过 进化 已 经 解决 了 这 些 难题 。 但 在 20 世 纪 50 年 
代 束 已 经 存在 各 种 暗示， 如 有 果 AI 人 研究 者 能 够 选择 完全 不 同 于 符号 处 理 的 
方式 ， 计 算 机 会 如 何 表现 出 智能 行为 。 

第 一 条 暗示 是 ， 我 们 的 大 脑 是 强大 的 模式 识别 右 。 我 们 的 视觉 系统 
可 以 在 110 秒 内 识别 混乱 场景 中 的 对 象 ， 即 使 我 们 可 能 从 未 见 过 那个 特 
定 的 对 象 ， 也 不 论 该 对 象 在 什么 位 置 ， 多 大 尺寸 ， 以 什么 角度 面 对 我 
们 。 简 而 言 之 ， 我 们 的 视觉 系统 就 像 一 台 以 “识别 对 象 ” 作 为 单一 指令 的 
计算 机 。 

第 二 条 暗示 是 ， 我 们 的 大 脑 可 以 通过 练习 来 学 会 如 何 执行 若干 艰巨 
的 任务 ， 比 如 弹 钢 奢 、 掌 握 物 理学 知识 。 大 目 然 使 用 通用 的 学 习 方 法 来 
解决 特殊 的 问题 ， 而 人 类 则 是 顶尖 的 学 习 者 。 这 是 我 们 的 特殊 能 力 。 我 
们 大 脑 皮 层 的 结构 整体 上 是 相似 的 ， 并 且 我 们 所 有 的 感受 系统 和 运动 系 
统 都 有 深度 学 习 网 络 。 UI 

第 三 条 暗示 是 ， 我 们 的 大 脑 并 没有 充 不 着 逻辑 或 规则 。 当 然 ， 我 们 
可 以 学 习 逻 辑 思 维 或 遵守 规则 ， 但 必须 要 经 过 大 量 的 训练 ， 而 我 们 当中 
的 大 多 数 人 对 此 并 不 在 行 。 这 一 点 可 以 通过 人 们 在 一 个 叫 作 * 华 生 选 择 任 
45" (Wason selection task) 的 逻辑 谜 题 上 的 典型 表现 来 进行 说 明 ( 见 图 
3-1) ° 


图 3-1 这 四 张 卡 片 ， 每 张 都 是 一 面 有 数 子 ， 男 一 面 涂 满 了 颜色 。 要 测试 以 下 命题 为 真 :一 张 
在 一 面 显 示 为 偶数 ， 那 它 的 男 一 面 就 是 红色 的 。 你 需要 翻 哪 UL) 张 牌 呢 ? 图 片 来 源 : “ 华 4 


择 任务 "， 维 基 百 科 。 


[tT 
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正确 的 选择 是 正面 为 数字 “8”"， 背 面 为 棕色 的 卡片 。 在 最 初 的 研究 
中 ， 只 有 10% 的 受 试 者 给 出 了 正确 的 答案 。[2] 但 是 ， 当 给 这 项 逻辑 测 
试 加 上 了 熟悉 的 背景 信息 时 ， 大 多 数 受 试 者 都 能 很 快 找 出 正确 答案 ( 见 
图 3-2) 。 

推理 似乎 是 基于 特定 领域 的 ， 我 们 对 该 领域 越 熟 悉 ， 就 越 容 易 解 决 
其 中 的 问题 。 经 验 使 得 在 一 个 领域 内 进行 推理 变 得 更 容易 ， 因 为 我 们 可 
以 用 已 有 的 例子 来 下 意识 地 得 到 解决 方案 。 例 如 ， 在 物理 学 中 ， 我 们 通 
过 解决 各 种 问题 ， 而 不 是 通过 背诵 公式 ， 来 学 习 电 磁 学 领域 的 知识 。 如 
果 人 类 的 智能 是 完全 基于 逻辑 的 ， 那 么 它 应 该 是 跨 领域 的 通用 智能 ， 但 
事实 并 非 如 此 。 


图 3-2 每 张 卡片 都 是 一 面 有 一 个 年 龄 数字 ， 另 一 面 印 着 一 种 饮料 。 需 要 翻 哪 UL) 张 牌 才能 检验 
这 条 法 律 ， 如果 你 正在 喝酒 ， 那 说 明 你 一 定 超过 18 岁 了 ? 图 片 来 源 : “ 华 生 选 择 任务 "， 维 基 百 
B 


第 四 条 暗示 是 ， 我 们 的 大 脑 充满 了 数 百 亿 个 小 小 的 神经 元 ， 每 时 每 
刻 都 在 互相 传递 信息 。 这 表明 ， 要 解决 人 工 智 能 中 的 难题 ， 我 们 应 该 研 
完 具 有 大 规模 并 行 体 系 结构 的 计算 机 ， 而 不 是 那些 具有 冯 : 诺 依 曼 数字 体 
系 结构 ， 每 次 只 能 获取 和 执行 一 个 数据 或 指令 的 计算 机 。 是 的 ， 图 灵机 
在 被 给 予 足 够 内 存 和 时 间 的 条 件 下 ， 的 确 可 以 计算 任何 可 计算 的 函数 ， 
但 目 然 界 必 须 实时 解决 问题 。 要 做 到 这 一 点 ， 它 利用 了 大 脑 的 神经 网 
络 ， 束 像 地 球 上 最 强大 的 计算 机 一 样 ， 它 们 具有 大 量 的 并 行 处 理 器 。 只 
有 人 能 有 效 运行 的 算法 ， 最 终 才 能 在 自然 选择 中 胜出 。 


深度 学 习 的 起 点 


20 世 纪 五 六 十 年 代 ， 在 诺 伯 特 - 维 纳 (Norbert Wiener) 提出 基于 机 器 
和 生物 中 的 通信 和 控制 系统 的 控制 论 之 后 不 久 ， [3] 学 界 对 自 组 织 系统 
开始 产生 了 浓厚 的 兴趣 。 而 其 中 一 个 独创 性 产物 便 是 由 奥利弗 : 塞 弗 里 奇 
(Oliver Selfridge) 创造 的 Pandemonium (H) » [4] 这 是 一 个 图 案 识 
别 设备 ， 其 中 进行 特征 检测 的 “恶魔 ?通过 互相 竞争 ， 来 争取 代表 图 像 中 
对 象 的 权利 (深度 学 习 的 隐喻 ， 见 图 3-3) 。 斯 坦 福 大 学 的 伯 纳 德 : 威 德 
罗 (Bernard Widrow) 和 他 的 学 生 泰 德 . 霍 夫 (Ted Hoff) 发 明了 LMS (最 
小 均 方 ) 学 习 算法 ， [5] 它 与 其 后 继 算法 一 起 被 广泛 用 于 自 适应 信号 处 
理 ， 例 如 噪声 消除 、 财 务 预测 等 应 用 。 在 这 里 ， 我 将 重点 关注 一 位 先驱 
弗兰克 : 罗 和 森 布 拉 特 (Frank Rosenblatt) 〈 图 3-4) ， 他 发 明 的 感知 器 是 深 
度 学 习 的 前 身 。 [6l 


认 知 恶魔 


图 3-3 Pandemonium。 奥 利 弗 . 塞 弗 里 奇 认 为 ， 大 脑 中 有 恶魔 负责 从 感官 输入 中 先后 提取 更 复杂 的 
特征 和 抽象 概念 ， 从 而 做 出 决定 。 如果 每 个 级 别 的 恶魔 与 前 一 个 级 别 的 输入 相 匹配 ， 则 会 激动 不 
已 。 做 决定 的 恶魔 需要 衡量 所 有 信息 传递 者 的 兴奋 程度 和 重要 性 。 这 种 形式 的 证 据 评 估 是 对 当前 
多 层次 深度 学 习 网 络 的 隐喻 。 图 片 来 源 : Peter H. Lindsay and Donald A. Norman, Human 
Information Processing: An Introduction to Psychology , 2nded. (New York: Academic Press, 1977), 
3-1 ° 维基 共享 资源 :https://commons.wikimedia.org/wiki/File:Pande.jpg ° 
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NEW NAVY DEVICE 
LEARNS BY DOING 


Psychologist Shows Embryo 
of Computer Designed to 


Read and Grow Wiser ! 


WASHINGTON, July. 7 (UPI) 
一 The Navy revealed the em- 
bryo of an electronic computer 
today that it expects will be 
able to walk, talk, see, write, 
reproduce itself and be con- 
scious of its existence, 


between 

fifty attempts in the Navy's 

demonstration for newsmen., 
The service said it would use 


Dr. Rosenblatt, a research 
psychologist at the -Cornell 


雏形 ， 感 知 器 是 能 够 将 图 像 进行 分 类 的 简易 学 习 算 法 。 图 中 文章 是 1958 年 7 月 8 日 在 《纽约 时 报 》 
上 发 表 的 一 篇 来 自 合 众 国际 社 (UPI) 的 报道 。 感 知 器 在 1959 年 完成 时 预计 花费 了 10 万 美元 ， 相 
当 于 今天 的 100 万 美元 。IBM704 计 算 机 在 1958 年 价值 200 万 美元 ， 相 当 于 现在 的 2000 万 美元 ， 可 
以 实现 每 秒 12000 次 的 乘法 和 运算， 这 在 当时 已 经 是 极 快 的 速度 了 。 不 过 相 比 之 下 ， 现 在 价格 要 低 
得 多 的 三 星 Galaxy S6 手 机 每 秒 可 以 执行 340 亿 次 操作 ， 速 度 要 快 100 万 倍 以 上 。 图 片 来 源 : George 
Nagy ° 


从 样本 中 学 习 


尽管 我 们 对 大 脑 功能 缺乏 足够 的 了 解 ， 但 神经 网 络 的 AI 先驱 们 依然 
依靠 着 神经 元 的 绘图 以 及 它们 相互 连接 的 方式 ， 进 行 着 艰难 的 摸索 。 康 
奈 尔 大 学 的 弗兰克 . 罗 和 森 布 拉 特 是 最 早 模 仿 人 体 上 自动 图 和 案 识别 视觉 系统 以 
FATA — © Ul 他 发 明了 一 种 看 似 简单 的 网 络 感 知 器 (perceptron) ， 
这 种 学 习 算 法 可 以 学 习 如 何 将 图 采 进 行 分 类 ， 例 如 识别 字母 表 中 的 不 同 
字母 。 算 法 是 为 了 实现 特定 目标 而 按 步 又 执 行 的 过 程 ， 惑 像 烘 焙 重 糕 的 
食谱 一 样 (天 于 算法 ， 将 会 在 第 13 半 中 进行 介绍 ) 。 

如 果 你 了 解 了 感知 器 如 何 学 习 图 案 识 别 的 基本 原则 ， 那 么 你 在 理解 
深度 学 习 工 作 原 理 的 路 上 已 经 成 功 了 一 半 。 感 知 右 的 目标 是 确定 输入 的 
图 案 是 否 属 于 图 像 中 的 某 一 类 别 (比如 猫 ) 。 方 框 3.1 解 释 了 感知 器 的 输 
入 如 何 通过 一 组 权重 ， 来 实现 输入 单元 到 输出 单元 的 转换 。 权 重 是 对 每 
一 次 输入 对 输出 单元 做 出 的 最 终 决 定 所 产生 影响 的 度量 ,但 是 我 们 如 何 
找到 一 组 可 以 将 输入 进行 正确 分 类 的 权重 呢 ? 


工程 师 解决 这 个 问题 的 传统 方法 ， 是 根据 分 析 或 特定 程序 来 手动 设 
定 权重 。 这 需要 耗费 大 量 人 力 ， 而 且 往 往 依赖 于 直觉 和 工程 方法 。 另 一 
种 方法 则 是 使 用 一 种 从 样本 中 学 习 的 目 动 过 程 ， 和 我 们 认识 世界 上 的 对 
象 的 方法 一 样 。 需 要 很 多 样本 来 训练 感知 器 ， 包 括 不 属于 该 类 别 的 反面 
样本 ， 特 别 是 和 目标 特征 相似 的 ， 例 如 ， 如 果 识 别 目 标 是 猫 ， 那 么 狗 融 
征 一 个 相似 的 反面 样本 。 这 些 样 本 被 逐个 传递 给 感知 船 ， 如 果 出 现 分 类 
错误 ， 算 法 束 会 目 动 对 权重 进行 校正 。 

这 种 感知 器 学 习 算 法 的 美妙 之 处 在 于 ， 如 采 已 经 存在 这 样 一 组 权 
， 并 且 有 足够 数量 的 样本 ， 那 么 它 肯 定 能 目 动 地 找到 一 组 合适 的 权 
^ 在 提供 了 训练 集中 的 每 个 样本 ， 并 且 将 输出 与 正确 答案 进行 比较 
， 感 知 旨 会 进行 递 进 式 的 学 习 。 如 果 管 案 古 正确 的 ， 那 么 权重 就 不 会 
发 生变 化 。 但 如 果 管 案 不 正确 〈0 被 误 判 成 了 1， 或 1 被 误 判 成 了 0) ， 权 
重 台 会 被 略微 调整 ， 以 便 下 一 次 收 到 相同 的 输入 时 ， 它 会 更 接近 正确 答 
案 〈 见 方 框 3.1) 。 这 种 渐进 的 变化 很 重要 ， 这 样 一 来 ， 权 重 就 能 接收 来 
目 所 有 训练 样本 的 影响 ， 而 不 仅仅 是 最 后 一 个 。 
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感知 器 是 具有 单一 人 造 神经 元 的 神经 网 络 ， 它 有 一 个 输入 层 ， 和 
将 输入 单元 和 输出 单元 相连 的 一 组 连接 。 感 知 器 的 目标 是 对 提供 给 输 
入 单元 的 图 案 进行 分 类 。 输 出 单元 执行 的 基本 操作 是 ， 把 每 个 输入 

(xy) 与 其 连接 强度 或 权重 (wp) 相 乘 ， 并 将 乘积 的 总 和 传递 给 
输出 单元 。 上 图 中 ， 输 入 的 加 权 和 (Fi-1 nwx) SO 进行 
比较 后 的 结果 被 传递 给 阶 路 函数 。 如 果 总 和 超过 阐 值 ， 则 阶 路 函数 输 
出 “1”， 否 则 输出 “0”。 例 如 ， 输 入 可 以 是 图 像 中 像素 的 强度 ， 或 者 更 
常见 的 情况 是 ， 从 原始 图 像 中 提取 的 特征 ， 例 如 图 像 中 对 象 的 轮廓 。 
每 次 输入 一 个 图 像 ， 感 知 器 会 判定 该 图 像 是 否 为 某 类 别 的 成 员 ， 例 如 
猫 类 。 输 出 只 能 是 两 种 状态 之 一 ， 如 果 图 像 处 于 类 别 中 ， 则 为 “ 开 ”， 
否则 为 “< 关 ”。“ 开 ”和 “ 关 ” 分 别 对 应 二 进 制 值 中 的 1 和 0。 感 知 器 学 习 算 
法 可 以 表达 为 : 

ó Wi 7aóxj 


0 =output—teacher, 


XE, output (输出 值 ) 和 teacher (实际 值 ) 都 是 二 进 制 的 ， 所 
以 根据 差 值 ， 如 果 输 出 正确 ，6 =0， 如 果 输 出 不 正确 ，6 =+1 或 者 - 


" 
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更 简洁 的 几何 方法 ， 来 理解 感知 器 如 何 学 习 对 输入 进行 分 类 。 对 于 只 
两 个 输入 单元 的 特殊 情况 ， 可 以 在 二 维 图 上 用 点 来 表示 输入 样本 。 每 个 
输入 都 是 图 中 的 一 个 点 ， 而 网 络 中 的 两 个 权重 则 确定 了 一 条 直线 。 感 知 
器 学 习 的 目标 是 移动 这 条 线 ， 以 便 清楚 地 区 分 正 负 样本 ( 见 图 3-5) 。 对 
于 有 三 个 输入 单元 的 情况 ， 输 入 空间 是 三 维 的， 感知 右 会 指定 一 个 平面 
来 分 隔 正 负 训 练 样本 。 在 一 般 的 情况 下 ， 即 使 输入 空间 的 维度 可 能 相当 
高 且 无 法 可 视 化 ， 同 样 的 原则 依然 成 立 。 


图 3-5 关于 感知 器 如 何 区 分 两 个 对 象 类 别 的 几何 解释 。 这 些 对 象 有 两 个 特征 ， 例 如 尺寸 和 亮度 ， 

它们 依据 各 自 的 坐标 值 (x，y) 被 绘制 在 每 张 图 上 。 左 边 图 中 的 两 种 对 象 (加 号 和 正方 形 ) 可 以 
通过 它们 之 间 的 直线 分 隔 开 ， 感 知 器 能 够 学 习 如 何 进 行 这 种 区 分 。 其 他 两 个 图 中 的 两 种 对 象 不 能 
直线 隔 开 ， 但 在 中 间 的 图 中 ， 两 种 对 象 可 以 用 曲线 分 开 。 而 右 侧 图 中 的 对 象 必须 舍弃 一 些 样 本 
才能 分 隔 成 两 种 类 型 。 如 果 有 足够 的 训练 数据 ， 深 度 学 习 网 络 就 能 够 学 习 如 何 对 这 三 个 图 中 的 类 


型 进行 区 分 。 


最 终 ， 如 采 解 决 方案 是 可 行 的 ， 权 重 将 不 再 变化 ， 这 意味 着 感知 大 
己 经 正确 地 将 训练 集中 的 所 有 样本 进行 了 分 类 。 但 是 ， 在 所 请 的 “过 度 拟 
合 ”(overfitting) 中 ， 也 可 能 没有 足够 的 样本 ， 网 络 仅仅 记 住 了 特定 的 样 
本 ， 而 不 能 将 结论 推广 到 新 的 样本 。 为 了 避免 过 度 拟 合 ， 关 键 是 要 有 男 
一 套 样本 ， 称 为 “测试 集 ” (test set) ， 它 没有 被 用 于 训练 网 络 。 训 练 结 
时 ， 在 测试 集 上 的 分 类 表现 ， 就 是 对 感知 器 是 否 能 够 推广 到 类 别 未 知 的 
新 样本 的 真实 度量 。 泛 化 (generalization) 是 这 里 的 关键 概念 。 在 现实 生 


活 中 ， 我 们 几乎 不 会 在 同样 的 视角 看 到 同一 个 对 象 ， 或 者 反复 过 到 同样 
的 场景 ， 但 如 果 我 们 能 够 将 以 前 的 经 验 泛 化 到 新 的 视角 或 场景 中 ， 我 们 
就 可 以 处 理 更 多 现实 世界 的 问题 。 


利用 感知 厂区 分 性 别 


举 一 个 用 感知 器 解决 现实 世界 问题 的 例子 。 想 想 如 果 去 掉头 发 、 首 
饰 和 第 二 性 征 ， 比 如 男性 比 女性 更 为 突起 的 喉 结 ， 该 如 何 区 分 男性 和 女 
性 的 面部 。 比 阿 特 丽 斯 .哥伦布 (Beatrice Golomb) 是 1990 年 我 实验 室 里 
的 一 名 博士 后 研究 员 ， 她 利用 一 个 数据 库 中 的 大 学 生 面 部 照片 作为 感知 
器 的 输入 ， 经 过 训练 的 感知 器 能 以 81% 的 准确 度 对 面部 的 性 别 进行 分 类 
( 见 图 3-6) 。 [8l 而 对 于 感知 器 难以 分 类 的 面部 ， 人 类 也 同样 很 难 做 出 
区 分 。 我 实验 室 的 成 员 在 同一 组 人 的 面部 识别 上 达到 了 88% 的 平均 准确 
度 。 比 阿 特 丽 斯 还 训练 了 多 层 感知 器 (将 在 第 8 章 中 介绍 ) ， 其 准确 度 达 
到 了 92%， [3] 比 我 实验 室 的 成 员 还 要 准确 。 她 在 1991 年 的 NIPS 大 会 上 
发 表 的 演讲 中 总 结 道 : “经 验 可 以 提高 性 能 ， 这 表明 实验 室 的 研究 人 员 需 
要 花 更 多 时 间 来 进行 性 别 鉴定 的 工作 。” 她 把 她 的 多 层 感知 器 叫 
作 “SEXNET” (性 别 网 络 ) 。 在 问答 环 和 ， 有 人 问 是 否 可 以 使 用 SEXNET 
来 检测 异 装 闻 者 的 面孔 。“ 可 以 。” 比 阿 特 丽 斯 这 样 回 答 。 而 NIPS 大 会 的 
创始 人 爱德华 :波斯 纳 (Edward Posner) 辩驳 道 : “ 那 惑 应 该 叫 DRAGNET 
(法 网 ) s.» [10] 


图 3-6 这 张 脸 属 于 男性 还 是 女性 ? 人 们 通过 训练 感知 器 来 辨别 男性 和 女性 的 面孔 。 来 自 面部 图 像 
(上 图 ) 的 像素 乘 以 相应 的 权重 (下 图 ) ， 并 将 该 乘积 的 总 和 与 阔 值 进行 比较 。 每 个 权重 的 大 小 
被 描绘 为 不 同 颜 色 像素 的 面积 。 正 值 的 权重 (白色 ) 表现 为 男性 ， 负 值 的 权重 (黑色 ) 倾向 于 女 
性 。 盘 子 宽度 ， 鼻 子 和 嘴 之 间 区 域 的 大 小 ， 以 及 眼睛 区 域 周围 的 图 像 强度 对 于 区 分 男性 很 重要 ， 
而 嘴 和 类 骨 周围 的 图 像 强 度 对 于 区 分 女 | 生 更 重要 。 图 片 来 源 : M. S. Gray, D. T. Lawrence, B. A. 
Golomband T.J.Sejnowski, “A Perceptron Revealsthe Face of Sex, " Neural Computation 7 
(1995):1160-1164, 1 ° 


区 分 男性 与 女性 面部 的 工作 有 趣 的 一 点 是 ， 虽 然 我 们 很 擅长 做 这 种 
区 分 ; 却 无 法 确切 地 表述 男女 面部 之 间 的 差异 。 由 于 没有 单一 特征 是 决 
定性 的 ， 因 此 这 种 模式 识别 问题 要 依赖 于 将 大 量 低级 特征 的 证 据 结 合 起 
K ^ 感知 硕 的 优点 在 于 ， 权 重 提供 了 对 性 别 区 分 最 有 帮助 的 面部 的 线 
索 。 令 人 惊讶 的 是 ， 人 中 ATARE ZRD) 是 最 显著 的 特 
征 ， 大 多 数 男性 人 中 的 面积 更 大 。 有 眼睛 周围 的 区 域 (男性 较 大 ) mL E 

(HERK) 对 于 性 别 分 类 也 有 着 很 高 的 信息 价值 。 感 知 器 会 权衡 来 自 


所 有 这 些 位 置 的 证 据 来 做 出 决定 ， 我 们 也 是 这 样 来 做 判定 的 ， 尽 管 我 们 
可 能 无 法 描述 出 到 底 是 怎么 做 到 的 。 

1957 年 罗 和 森 布 拉 特 对 “感知 器 收 钱 定理 ”的 证 明 是 一 个 突破 ， 他 的 演 
示 令 人 印象 深刻 。 在 美国 海军 人 研究 办 公 室 (Office of Naval Research) 的 
支持 下 ， 他 搭建 了 一 个 以 400 个 光电 单元 作为 输入 的 定制 硬件 模拟 计算 
机 ， 其 权重 是 由 电机 调整 的 可 变 电 阻 电位 右 。 模 拟 信号 随 着 时 间 连 续 变 
化 ， 束 像 黑 胶 唱片 中 的 信号 一 样 。 用 一 组 图 片 集 〈 其 中 部 分 图 片 中 有 坦 
克 ， 另 外 一 部 分 则 没有 ) 进行 训练 ， 罗 和 森 布 拉 特 的 感知 絮 即 使 在 新 图 像 
中 也 能 准确 识别 坦克 。 这 一 成 果 经 《纽约 时 报 》 报 道 后 引起 了 受 动 ( 见 
图 3-4) 。 lul 


感知 句 激 发 了 对 高 维 空间 中 模式 分 离 的 美妙 的 数学 分 析 。 当 那些 点 
存在 于 有 数 千 个 维度 的 空间 中 时 ， 我 们 残 无 法 依赖 在 生活 的 三 维 空间 里 
对 点 和 点 之 间距 离 的 直觉 。 俄 罗斯 数学 家 弗 拉 基 米 尔 : 瓦 普 尼 克 

(Vladimir Vapnik) 在 这 种 分 析 的 基础 上 引入 了 一 个 分 类 器 ， 称 为 “支持 
向 量 机 ” (Support Vector Machine) , [12] 它 将 感知 器 泛 化 ， 并 被 大 量 用 
于 机 器 学 习 。 他 找到 了 一 种 目 动 寻 找平 面 的 方法 ， 能 够 最 大 限度 地 将 两 
个 类 别 的 点 分 开 〈 见 图 3-5， 线 性 ) 。 这 让 泛 化 对 空间 中 数据 点 的 测量 误 
差 容 忍 度 更 大 ， 再 结合 作为 非 线性 扩充 的 “内 核 技 巧 ”(kernel trick) , x 
持 向 量 机 算法 就 成 了 机 器 学 习 中 的 重要 支柱 。 [13] 


似 低 佑 的 神经 网 络 


但 是 有 一 个 限制 ， 使 得 感知 器 的 研究 存在 问题 。 上 面 的 假设 “如 采 存 
在 这 样 的 权重 集合 ”提出 了 一 个 这 样 的 困惑 ， 即 什么 样 的 问题 可 能 或 不 可 
能 被 感知 絮 解 决 。 令 人 乾 俯 的 是 ， 在 二 维 平 面 中 ， 人 简单 分 布 的 点 不 能 被 
感知 器 分 开 ( 见 图 3-5， 非 线性 ) 。 事 实证 明 ， 坦 克 感 知 器 不 是 坦 死 分 类 
器 ， 而 是 天 气 分 类 器 。 MA 对 图 像 中 的 坦克 进行 分 类 要 困难 得 多 ， 而 事 
实 上 ， 它 不 能 用 感知 各 来 完成 。 这 也 表明 ， 即 使 感知 融 学 到 了 一 些 东 


西 ， 也 可 能 不 是 你 认为 它 应 该 学 到 的 那些 东西 。 压 倒 感 知 器 的 最 后 一 根 
稻草 是 马 文 : 明 斯 基 和 西 摩尔 ' 怕 普 特 在 1969 年 发 表 的 数学 专著 《感知 器 》 
(Perceptrons ) 。 [15] 他 们 明确 的 几何 分 析 表 明 ， 感 知 器 的 能 力 是 有 限 
Hy. 它们 只 能 区 分 线性 可 分 的 类 别 ( 见 图 3-5) 。 这 本 书 的 封面 展示 了 明 
斯 基 和 帕 普 特 证 明 的 感知 器 无 法 解决 的 几何 问题 ( 见 图 3-7) 。 尽 管 在 书 
的 末尾 ， 明 斯 基 和 由 普 特 考虑 了 将 单 层 感 知 右 进行 沁 化 成 为 多 层 感 知 右 
的 前 景 ， 但 他 们 怀疑 可 能 没有 办 法 训练 这 些 更 强大 的 感知 器 。 不 笠 的 
是 ， 许 多 人 对 他 们 的 论断 坚信 不 疑 ， 于 是 这 个 研究 领域 渐渐 被 人 们 遗 
忘 ， 直 到 20 世 纪 80 年 代 ， 新 一 代 神 经 网 络 研究 人 员 开 始 重 新 审视 这 个 问 


在 感知 器 中 ， 每 个 输入 都 独立 地 回 输 出 单元 提供 证 据 。 但 是 ， 如 有 果 
需要 依靠 多 个 输入 的 组 合 来 做 决定 ， 那 会 怎样 呢 ? 这 就 是 感知 器 无 法 区 
分 螺旋 结构 是 否 相连 的 原因 : 单个 像素 并 不 能 提供 它 是 在 内 部 还 是 外 部 
的 位 置信 息 。 尽 管 在 多 层 前 馈 神 经 网 络 中 ， 可 以 在 输入 和 输出 单元 之 间 
的 中 间 层 中 形成 多 个 输入 的 组 合 ， 但 是 在 20 世 纪 60 年 代 ， 还 没有 人 知道 
如 何 训练 简单 到 中 间 只 有 一 层 “ 隐 藏 单元 ”(hiddenunits) 的 神经 网 络 。 


Perceptrons 


rt 
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图 3-7 《感知 器 》 一 书 的 增订 版 封面 。 两 个 红色 的 螺旋 结构 看 起 来 一 样 ， 但 实际 并 非 如 此 。 上 方 
的 岁 案由 两 个 不 相连 的 螺旋 线 组 成 ， 下 面 的 则 是 单一 的 螺旋 线 。 你 可 以 通过 用 铬 笔 跟 踪 环 路 的 内 
部 路 径 来 验证 。 明 斯 基 和 帕 普 特 证 明了 感知 器 不 能 区 分 这 两 个 对 象 。 你 能 直接 用 肉眼 看 出 区 别 
吗 ? 为 什么 不 能 ? 


ua 


弗兰克 . 罗 森 布 拉 特 和 马 文明 斯 基 曾 是 纽约 市 布朗 克 斯 科技 高 中 的 同 
班 同学 。 他 们 在 科学 会 议 上 为 各 自 角 异 的 人 工 智 能 研究 方法 展开 了 辩 
论 ， 而 与 会 者 更 倾向 于 明 斯 基 的 方法 。 尽 管 存在 差异 ， 但 他 们 二 人 对 我 
们 理解 感知 器 都 有 着 重要 贡献 ， 而 这 正 是 深度 学 习 的 起 点 。 

罗 和 森 布 拉 特 在 1971 年 死 于 一 次 驾 船 事故 ， 年 仅 43 岁 ， 当 时 正 值 人 们 
几乎 一 边 倒 地 反对 感知 器 的 时 期 。 有 传言 说 他 可 能 是 自杀 ， 但 也 可 能 只 
是 一 次 不 幸 的 出 游 。 [16] 不 可 否认 的 是 ， 一 个 发 现 了 利用 神经 网 络 进行 
计算 的 新 方式 的 英雄 时 代 已 经 谢幕 ， 又 过 了 整整 一 代 人 的 时 间 ， 罗 和 森 布 
拉 特 开创 性 努力 的 承诺 才 得 以 实现 。 


上 在 空间 上 ， 人 们 发 现 细胞 特性 和 连接 性 在 皮层 不 同 部 分 之 间 存 在 差异 ， 这 可 能 反映 了 不 
同感 官 系统 的 特异 化 和 其 结构 的 层次 性 。 

[2] P. C. Wason, *Self-Contradictions," in P. N. Johnson-Laird and P. C. Wason, eds.,Thinking: 
Readings in Cognitive Science (Cambridge: Cambridge University Press,1977). 


[3] Norbert Wiener, Cybernetics, or Control and Communication in the Animal and the Machine 
(Cambridge, MA: MIT Press, 1948). 


[4] O. G. Selfridge, “Pandemonium: A Paradigm for Learning,” in D. V. Blake and A. M.Uttley, 
eds., Proceedings of the Symposium on Mechanisation of Thought Processes (1959): 511—529. 


[5] & M] Bernard Widrow and Samuel D. Stearns, Adaptive Signal Processing (Englewood Cliffs, 
NJ: Prentice-Hall, 1985) ° 


[6] 参阅 Frank Rosenblatt, Principles of Neurodynamics: Perceptrons and the Theory of Brain 
Mechanisms (Washington, DC: Spartan Books, 1962) ° 
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着 广泛 兴趣 的 博学 之 人 。 他 的 兴趣 之 一 ， 就 是 在 凌 日 现象 发 生 时 ， 研 究 如 何 通过 测量 远 处 恒星 表 
面 亮度 的 略微 下 降 ， 来 寻找 围绕 其 运转 的 行星 。 这 种 方法 现在 常用 于 检测 银河 系 中 绕 着 恒星 运转 
的 太阳 系 外 行星 。 
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的 。 译 者 注 

[15] Marvin Minsky and Seymour Papert, Perceptrons (Cambridge, MA: MIT Press,1969). 也 可 参 
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[16] 据 加 州 大 学 圣迭戈 分 校 的 同事 Harvey Karten 称 ， 罗 和 森 布 拉 特 是 一 位 经 验 丰 富 的 水 手 。 他 
曾 带领 一 群 学 生 驾 船 出 游 。 船 好 像 擅 到 了 什么 ， 他 从 船上 沙 入 水 中 ， 但 当时 没有 一 个 学 生 能 救 得 
了 他 。 (个 人 对 话 ，2017 年 11 月 8 日 。) 


04 
大 脑 式 的 计算 


“如 果 我 有 大 脑 ”， 这 是 1939 年 经 典 音乐 电影 《绿野仙踪 》 (The 
Wizard of Oz) 里 称 草 人 的 唱词 。 但 稻草 人 不 知道 的 是 ， 他 早 就 已 经 有 
大 脑 了 ， 否 则 他 就 没 法 说 话 或 唱歌 。 但 真正 的 问题 是 ， 他 的 大 脑 只 诞 
生 了 两 大， 里面 没有 经 验 ， 空 空 如 也 。 随 着 时 间 的 推移 ， 他 对 世界 有 
了 充分 的 认识 ， 最 后 被 公认 为 是 奥 兹 国 里 最 聪明 的 人 ， 聪 明 到 能 意识 
到 目 己 的 局 限 。 而 铁皮 人 唱 的 古 ,“ 如 来 我 能 有 心 *。 他 和 称 草 人 为 心 和 
脑 哪个 更 重要 而 争论 不 休 。 在 奥 兹 国 中 ， 认 知 和 情感 这 两 个 大 脑 的 产 
物 在 精妙 的 平衡 中 共同 协作 ， 通 过 不 断 学 习 慢 慢 创 造 出 了 类 人 的 智 
功 。 这 在 真实 世界 里 亦 是 如 此 。 这 部 音乐 剧 也 引出 了 本 章 的 主题 : 如 
打 人 工 智能 拥有 大 脑 和 心脏 。 


网 络 模型 能 够 模仿 千 能 行为 


RARAP H ( 见 图 4-1) 在 1979 年 他 组 织 的 一 次 研讨 会 上 相 
!1。 因 为 对 神经 网 络 模型 的 未 来 抱 有 相似 的 信念 ， 我 们 很 快 束 成 了 朋 
。 后 来 我 们 合作 研究 出 了 一 种 新 型 神经 网 络 模型 ， 叫 作 * 玻 尔 效 曼 
> (Boltzmann machine) ” (将 在 第 7 章 中 进行 讨论 ; ， 并 束 此 打破 了 
BER LABES E Ae ER Pd ZEE BI fe] 。 


So 


2E 


层 神 经 网 络 的 深度 学 习 才 在 手机 中 的 语音 识别 和 识别 照片 中 的 对 象 等 
方面 达到 了 与 人 类 相近 的 水 平 。 公 众 几 年 前 才 意 识 到 深度 学 习 的 这 些 
能 力 ， 虽 然 现 在 这 些 已 经 是 众所周知 的 了 ， 但 这 一 过 程 却 花费 了 相当 
长 的 时 间 。 


杰 弗 里 在 剑桥 大 学 获得 了 心理 学 学 士 学 位 ， 并 在 爱丁堡 大 学 获得 

了 了 人工 智 能 博士 学 位 。 他 的 论文 导师 是 元 里 斯 托 弗 : 度 古 特 -项 金 斯 
(Christopher Longuet-Higgins) 。 和 希 金 斯 是 一 位 杰出 的 化 学 家 ， 他 发 明 

了 一 种 早期 的 联想 记忆 网 络 模型 。 那 时 ， 实 现 人 工 智 能 的 主流 方式 是 
基于 使 用 符号 、 逻 辑 和 规则 来 编写 智能 行为 的 程序 ， 认 知心 理学 家 已 
经 采用 这 种 方法 来 理解 人 类 的 认 知 能 力 ， 尤 其 是 语言 。 而 那 时 的 杰 弗 
里 却 在 逆流 而 行 。 没 有 人 能 预见 到 他 有 朝 一 日 会 搞 清 楚 大 脑 或 者 
至 少 类 似 大 脑 的 某 种 东西 一 一 的 工作 原理 。 他 的 讲座 非常 引人入胜 ， 
他 能 够 清楚 地 解释 抽象 的 数学 概念 ， 连 没有 太 多 数学 基础 的 人 都 能 够 
理解 和 掌握 。 他 的 机 智和 不 失 谦 人 进 的 幽默 感 令 人 倾倒 。 杰 弗 里 天 生 也 
有 着 激进 的 一 面 ， 特 别 是 当 涉 及 大 脑 的 话题 时 。 

我 们 第 一 次 见面 时 ， 杰 弗 里 还 是 加 州 大 学 圣迭戈 分 校 (UCSD) 的 
一 名 博士 后 研究 员 ， 在 由 大 卫 : 鲁 姆 哈 特 (David Rumelhart) 和 和 詹姆斯: 
麦克 莱 兰 (James McClelland) 领导 的 并 行 分 布 式 处 理 ( Parallel 
Distributed Processing, PDP) 实验 室 工 作 。 杰 弗 里 坚信 ， 将 由 简单 处 
理 单元 构成 的 网 络 、 并 行 工 作 和 从 样本 中 学 习 相 结 合 ， 是 理解 认 知 的 
更 好 的 方式 。 当 时 PDP 实 验 室 正 在 探索 如 何以 分 布 在 网 络 中 的 大 量 节 点 
活动 的 形式 来 理解 文字 和 语言 ， 而 杰 弗 里 是 其 中 的 核心 人 物 。 

认 知 科学 中 理解 语言 的 传统 方法 是 基于 符号 表征 。 例 如 , “杯子 ”这 
个 词 是 代表 杯子 概念 的 符号 ， 不 是 特 指 某 个 杯子 ， 而 是 指 所 有 杯子 。 
符号 的 美妙 之 处 在 于 ， 它 们 让 我 们 能 够 对 复杂 的 概念 进行 压缩 ， 并 运 
用 它们 ; 而 符号 的 问题 在 于 ， 这 种 过 分 概括 的 表达 形式 使 其 很 难 在 现 
实 世 界 中 被 精确 地 描述 出 来 一 一 在 现实 世界 中 ， 杯 子 的 样式 、 形 状 和 
尺寸 有 着 无 数 种 可 能 。 虽 然 我 们 大 多 数 人 在 看 到 杯子 的 时 候 都 能 很 快 
认 出 它 是 什么 ， 但 没有 一 个 逻辑 程序 能 够 清楚 地 指认 哪个 东西 是 杯 


于， 哪个 不 是 ， 也 无 法 识别 出 图 片 中 的 杯子 。 正 义 、 和 平 之 类 的 抽象 
概念 更 会 让 一 个 计算 机 程序 产生 困惑 。 另 一 种 方法 是 ， 通 过 大 量 神经 
元 上 的 活动 模式 来 表示 杯子 ， 如 此 一 来 就 可 以 捕捉 概念 之 间 的 相似 和 
差异 点 。 这 赋予 了 符号 可 以 反映 其 舍 义 的 丰富 的 内 部 结构 。 问 题 在 
于 ， 在 1980 年 ， 还 没有 人 知道 如 何 创建 这 些 内 部 表征 。 

在 20 世 纪 80 年 代 ， 相 信和 网 络 模型 能 够 模仿 智能 行为 的 人 并 不 只 
我 和 杰 弗 里 。 全 世界 有 一 些 研 究 人 员 ， 虽 然 大 多 都 在 独 目 耕 耘 ， 但 与 
我 们 有 着 共同 的 信念 ， 坚 持 不 懈 地 开发 着 专门 的 网 络 模型 。 他 们 当中 
的 一 位 ， 殉 里 斯 托 弗 . 冯 : 德 :马尔 斯 伯 格 (Christoph von der 
Malsburg) ， 开 发 了 一 种 模式 识别 模型 ， 将 发 射 脉冲 的 人 造 神 经 元 连接 
在 一 起 ， M 并 证 明了 这 种 方法 可 以 识别 图 像 中 的 人 脸 。 l 另外， 大 
Ux SEU ER AS (Kunihiko Fukushima) 发 明了 神经 认 知 机 

(Neocognitron) , l3] 一 个 基于 视觉 系统 架构 的 多 层 网 络 模型 ， 它 使 
用 了 卷 积 滤波 器 和 人 简单 形式 的 赫 布 可 逆 性 (Hebbian plasticity) ， 这 也 
是 深度 学 习 网 络 的 一 个 直接 的 前 喘 。 第 三 个 例子 是 赫 尔 闻 基 大 学 的 电 
气 工 程 师 戴 沃 . 科 霍 宁 (Teuvo Kohonen) ， 他 开发 了 一 个 自 组 织 网络 ， 
可 以 学 习 将 相似 的 输入 通过 不 同 的 处 理 单元 聚 类 到 二 维 映 射 中 (例如 
可 以 用 来 代表 不 同 的 语音 ) ， 相 似 的 输入 能 够 激活 和 输出 空间 的 相 邻 区 
域 。 [4] 科 震 宁 网 络 模型 的 一 个 主要 优点 是 ， 它 不 需要 对 每 个 输入 的 类 
别 进行 标记 〈 通 过 生成 标记 来 训练 监督 网 络 的 花费 十 分 高 昂 ) RE 
宁 的 箭 袋 中 只 有 一 文 箭 ， 但 却 被 打磨 得 非常 精 恨 。 


在 加 州 大 学 洛杉矶 分 校 的 朱 迪 亚 ; 珀 尔 (Judea Pearl) 引入 了 将 网 络 
中 的 结 点 用 概率 联系 起 来 的 信念 网 络 ， 比 如 草地 变温 ， 是 因为 喷 水 器 
打开 了 的 概率 ， 或 者 因为 下 雨 了 的 概率 。 [9] 这 是 一 个 很 有 前 景 的 将 概 
率 网 络 系统 化 的 早期 竹 试 。 虽 然 珀 尔 的 网 络 模 型 是 一 个 可 以 用 于 奶妈 
世间 因果 关系 的 强大 框架 ， 但 手动 分 配 所 有 所 需 概率 已 经 被 证 明 是 不 
切实 际 的 。 能 够 目 动 找到 概率 的 学 习 算法 依然 有 待 突破 (会 在 本 书 第 


三 部 分 讨论 ) ^ 


上 述 几 个 例子 和 其 他 基于 网 络 的 模型 部 有 一 个 共同 的 致命 缺陷 : 
它们 都 不 足以 解决 现实 世界 中 的 问题 。 而 且 ， 开 发 它们 的 先驱 者 很 少 
与 他 人 合作 ， 要 取得 进展 惑 更 加 举步维艰 。 如 此 一 来 ， 麻 省 理工 学 
完 、 斯 坦 福 大 学 和 卡 内 基 - 梅 隆 大 学 的 一 流 人 工 知 能 研究 中 心里 ， 束 没 
有 多 少 人 看 好 神经 网 络 了 。 基 于 规则 的 符号 处 理 获得 了 大 部 分 资金 文 
持 ， 并 完成 了 大 部 分 的 相关 研究 工作 。 


神经 网 络 先驱 者 


1979 年 ， 杰 弗 里 . 辛 顿 和 布朗 大 学 心理 学 家 詹姆斯 安德森 在 加 利 福 
尼 亚 的 拉 荷 亚 市 组 织 了 联想 记忆 的 并 行 模型 研讨 会 。 [6] 大 多 数 参与 者 
互相 之 间 都 是 第 一 次 见面 。 我 很 惊讶 自己 能 够 受 邀 参加 研讨 会 ， 我 那 
会 儿 只 是 哈佛 大 学 医学 院 神经 生物 学 的 博士 后 研究 员 ， 而 且 只 在 一 些 
不 太 知名 的 期 刊 上 发 表 了 一 些 关于 神经 网 络 的 技术 论文 。 杰 弗 里 后 来 
告诉 我 ， 他 曾经 与 大 卫 : 马 尔 (David Marr)”( 见 图 4-2， 中 间 ) 审核 过 
我 的 背景 。 马 尔 是 神经 网 络 建 模 中 的 一 位 顶尖 人 物 ， 也 是 MIT AI Lab 
的 一 名 有 远见 的 领导 者 。1976 年 ， 我 在 怀俄明 州 杰克 逊 霍 尔 市 
(Jackson Hole) 的 一 个 小 型 研讨 会 上 第 一 次 遇 到 了 马尔 。 我 们 有 相似 
的 兴趣 ， 他 还 曾 邀 请 我 去 MIT 参 观 ， 并 在 那里 做 一 次 演讲 。 


1 ~ 4 STAAN 3 


Daa ow 
^. T3 —À ae 
2 B = y 


Hao ( 左 起 ) 托 马 索 - 波 吉 奥 (Tomaso Poggio) 、 大 卫 .马尔 和 弗朗西斯. 克 里 克 (Francis 
Crick) 在 加 利 福 尼 亚 远足 的 途中 (照片 拍摄 于 1974 年 》。 旧 朗 西 斯 很 享受 与 来 访 省 在 各 种 科 
学 问题 上 进行 长 时 间 的 讨论 。 图 片 来 源 ， 索 尔 克 生 物 研究 所 。 
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马尔 从 剑桥 大 学 获得 了 数学 学 士 学 位 和 生理 学 博士 学 位 。 他 的 博 
士 生 导师 是 生理 学 家 吉尔 斯 : 布 林 德 利 (Giles Brindley) ， 专 门 研究 视 
网 膜 和 人 色觉， 但 在 首 乐 理论 和 过 起 功能 障碍 治疗 领域 也 有 较 高 的 知名 
度 。 吉 尔 斯 有 一 件 很 出 名 的 逸事 一 一 在 内 华 达州 拉 斯 维 加 斯 举行 的 美 
国 泌 尿 外 科学 会 (The American Urological Association) 会 议 上 发 表演 
讲 时 ， 他 脱 挤 了 俯 子 ， 亲 目 证 明了 化 学 诱导 动 起 的 有 效 性 。 马 尔 的 博 
士 论 文 描述 了 一 个 小 脑 神经 网 络 学 习 模 型 ， 这 块 区 域 与 快速 运动 控制 
有 天 。 他 还 开发 了 海马 体 和 大 脑 皮 层 的 神经 网 络 模 型 ， 撰 写 的 大 量 相 
关 文 章 也 都 被 证 明 十 分 有 预见 性 。 Ul 


当 我 第 一 次 在 杰克 进 旱 尔 过 到 马尔 时 ， 他 已 经 到 了 麻 省 理工 学 
院 ， 当 时 正在 从 事 视 觉 研究 工作 ， 并 凭借 他 的 个 人 魅力 吸引 到 了 一 批 
有 才华 的 学 生 跟 他 一 起 工作 。 他 追求 一 种 自 下 而 上 的 策略 ， 从 视网膜 
开始 入 手 〈 在 那里 光 被 转换 成 电信 号 ) ， 并 探求 视网膜 中 的 信号 如 何 
编码 对 象 的 特征 ， 以 及 视 沉 皮层 如 何 表 示 物 体 的 表面 和 边界 。 他 和 托 
马 索 : 波 吉 奥 为 立体 视觉 开发 了 一 种 带 有 反馈 连接 的 递归 神经 网 络 模 


型 ， 通 过 检测 双眼 看 到 的 随机 点 立体 图 中 点 的 图 像 的 轻微 横向 位 移 ， 
来 测量 对 象 的 深度 。 [8] 双眼 深度 感知 是 三 维 立 体 图 产生 效果 的 基础 。 
[2] 马尔 于 1980 年 因 白 血 病 去 世 ， 年 仅 35 岁 。 两 年 之 后 ， 他 的 遗 作 《 视 
觉 》 (Vision) 得 以 发 表 。 M 具有 讽刺 意味 的 是 ， 尽 管 马尔 在 他 的 
视觉 研究 中 采取 了 自 下 而 上 的 策略 ， 即 从 视网膜 开始 并 对 视觉 处 理 的 
每 个 后 续 阶段 进行 建 模 ， 他 的 著作 却 以 倡导 自 上 而 下 的 策略 而 闻名 
一 首先 对 要 解决 的 问题 进行 计算 分 析 ， 然 后 构建 算法 来 解决 问题 ， 
最 后 通过 硬件 来 实现 算法 。 然 而 ， 尽 管 这 可 能 是 在 解决 问题 后 对 问题 
进行 解释 的 一 种 有 效 途径 ， 但 对 于 揭 开 大 脑 秘密 却 算 不 上 是 个 好 方 
法 。 难 点 就 在 第 一 步 一 要 判断 大 脑 正 在 解决 什么 问题 。 我 们 的 直觉 
往往 具有 误导 性 ， 特 别 是 在 视觉 方面 ， 我 们 擅长 观察 ,但 大 脑 对 我 们 
隐藏 了 所 有 的 细节 。 因 此 ， 纯 粹 的 自 上 而 下 策略 问题 重重 ， 但 纯粹 自 
下 而 上 的 策略 也 同样 如 此 (后 面 的 章节 将 探讨 通过 学 习 算 法 ， 由 内 而 
外 理解 视觉 工作 原理 的 进展 ) 。 


弗朗西斯 克 里 克 也 参加 了 六 顿 和 安德森 在 拉 傈 亚 的 研讨 会 ， 他 曾 
在 1953 年 与 同 在 剑桥 大 学 的 詹姆斯 : 沃 森 (James Watson) 共同 发 现 了 
DNA 的 双 螺 旋 结 构 。 在 20 多 年 后 的 1977 年 ， 克 里 克 加 入 了 位 于 拉 谷 亚 
的 索 尔 克 生 物 研 究 所 ， 并 将 研究 重心 转移 到 神经 科学 领域 。 他 会 邀请 
研究 人 员 来 访 ， 并 残 神 经 科学 的 许多 课题 ， 特 别 是 视觉 方向 ， 进 行 长 
时 间 的 讨论 ， 马 尔 就 是 其 中 一 位 访问 者 。 在 马尔 著作 的 末尾 ， 有 一 段 
苏 格 拉 底 对 话 式 的 局 发 性 讨论 ， 我 后 来 得 知 ， 这 段 对 话 源 目 马 尔 与 克 
里 克 的 讨论 。1989 年 我 加 入 索 尔 克 人 研究 所 后 ， 也 开始 意识 到 与 克 里 克 
对 话 的 重要 价值 。 


芥 治 :布尔 与 机 器 学 习 


1854 年 ， 一 位 自学 成 才 、 有 5 个 女儿 《有 几 个 很 有 数学 天 分 ) 的 英 
国教 师 ， 写 了 一 本 名 为 《思维 规律 的 研究 》 (An Investigation of the 


Laws of Thought ) 的 书 ， 它 是 “布尔 逻辑 ?的 数学 基础 。 和 乔治: 布尔 对 于 
如 何 使 用 逻辑 表达 式 的 见解 是 数字 计算 的 核心 ， 也 是 20 世 纪 50 年 代 人 
工 智 能 萌芽 期 成 果 的 基石 。 杰 弗 里 : 闻 顿 作为 布尔 的 玄孙 ， 很 自豪 能 拥 
有 一 文 布尔 曾经 使 用 过 并 在 家 族 中 代 代 相传 的 笔 。 


在 准备 一 次 演讲 时 ， 我 发 现 布 尔 这 本 著作 的 全 称 是 《思维 规律 的 
研究 一 一 逻辑 与 概率 的 数学 理论 基础 》。 虽 然 其 中 让 人 印象 最 深刻 的 
征 对 逻辑 的 洞察 ， 但 这 本 书 对 于 概率 论 也 有 很 多 讨论 。 概 率 论 是 现代 
机 器 学 习 的 核心 ， 在 摘 述 现实 世界 中 的 不 确定 性 方面 比 逻辑 方法 要 好 
用 得 多 。 所 以 布尔 也 是 机 器 学 习 的 先驱 之 一 。 有 些 讽刺 的 是 ， 他 思想 
中 被 遗 起 的 一 面 ， 在 250 年 后 因为 他 的 芯 让 才 开 始 绽放 。 布 尔 一 定 会 大 
杰 弗 里 感到 骄傲 的 。 
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也 探讨 了 概率 的 问题 。 这 两 个 数学 领域 分 别 司 发 了 在 符号 处 理 和 机 器 学 习 方面 的 人 工 智 能 研究 


方法 


4. 


利用 神经 科学 理解 大 脑 


在 普林斯顿 大 学 物理 系 攻读 研究 生 时 ， 我 曾 通过 写 下 非 线性 神经 
元 交互 网 络 的 方程 式 并 分 析 它 们 来 解决 如 何 理解 大 脑 的 问题 ， (LE 就 
像 物 理学 家 几 个 世纪 以 来 使 用 数学 来 理解 重力 、 光 、 电 、 磁 和 核能 的 
本 质 一 样 。 每 天 晚上 睡 前 ， 我 都 会 祈祷 : “亲爱 的 主 ， 让 方程 式 是 线性 
的 ， 噪 声 呈 高 斯 分 布 ， 变 量 是 可 分 的 吧 。” 这 些 是 能 产生 分 析 解 法 的 条 
件 ， 但 是 因为 神经 网 络 方程 式 是 非 线性 的 ， 与 之 相关 的 噪声 是 非 高 斯 
分 布 的 ， 而 且 变 量 是 不 可 分 的 ， 所 以 它们 并 没有 明确 的 解 。 除 此 之 
外 ， 当 时 想 要 在 计算 机 上 模拟 大 型 网 络 的 方程 是 不 可 能 的 。 更 令 人 洱 
形 的 是 ， 我 甚至 不 确定 我 的 方程 式 到 底 对 不 对 。 


在 普林斯顿 上 课时 ， 我 发 现 神经 科学 家 们 正在 取得 令 人 振奋 的 进 
展 ， 这 个 年 轻 的 学 科 领 域 45 年 前 才 初 露 端 倪 。 在 此 之 前 ， 生 物 学 、 心 
理学 、 解 剖 学 、 生 理学 、 药 理学 、 神 经学、 精神 病 学 、 生 物 工程 学 等 
许多 学 科 都 对 大 脑 进 行 了 人 研究。 在 1971 年 神经 科学 学 会 (The Society 
for Neuroscience) 的 第 一 次 会 议 上 ， 弗 农 .蒙特 卡 索 (Vernon 
Mountcastle) 亲自 在 门口 迎接 了 每 一 位 与 会 者 。 H2] 今天 ， 这 个 学 会 
有 4 万 多 名 成 员 ， 大 约 3 万 人 通常 会 出 遍 年 会 。 我 于 1982 年 在 约翰 :和 霍 普 
金 斯 大 学 的 生物 物理 系 开 始 我 的 第 一 份 工作 时 ， 遇 到 了 这 位 传奇 鸭 神 
经 生理 学 家 ， 他 发 现 了 皮层 柱 ， 而 且 有 着 强大 的 人 格 魅 力 。 [22] 我 随 
后 与 蒙特 卡 索 密切 合作 ， 计 划 建 立 约翰 : 霍 普 金 斯 大 学 的 脑 研 究 所 。 这 
是 世界 上 该 领域 第 一 个 研究 机 构 ， 成 立 于 1994 年 。 

对 于 大 脑 的 研究 存在 着 许多 不 同 的 层级 ( 见 图 4-4) ， 每 个 层级 都 
有 着 重要 的 发 现 ， 而 要 整合 所 有 这 些 知识 是 一 个 环 手 的 问题 。 这 让 人 
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图 4-4 大 脑 研 究 中 的 层级 。 ( 左 ) 空间 尺度 范围 从 底部 的 分 子 水 平 到 顶部 的 整个 中 枢 神 经 系统 

(centralnervous systems, CNS) 。 我 们 已 经 对 每 一 个 层级 都 有 了 深入 的 了 解 ， 但 对 具有 少量 
彼此 高 度 相关 的 神经 元 的 网 络 层 级 ， 即 由 人 工 神经 网 络 进行 模拟 的 层级 ， 却 知之 甚 少 。 (A) 
突 触 (图 片 下 方 ) 的 示意 图 ， 视 觉 皮 层 中 的 简单 细胞 结构 (图 片 中 间 ) 以 及 视觉 皮层 中 皮层 区 
域 的 层次 结构 (图 片上 方 ) 。 图 片 改 编 自 : PS. Churchland, T.J. Sejnowski, “Perspectives on 
Cognitive Neuroscience", Science , 242(1988):741-745, Figure 1 ° 
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那么 容易 了 。 这 一 过 程 需要 做 加 法 而 不 是 减法 ， 而 这 正 是 我 想 要 实现 
的 。 但 首先 我 必须 知道 各 个 部 分 都 是 什么 ， 毕 竟 大 脑 的 构成 太 复 杂 
[fe 

查尔斯 - 格 罗 斯 (Charles Gross) 教授 是 在 普林斯顿 研究 猴子 视觉 系 
统 的 心理 学 家 。 在 他 的 一 个 研究 生 讲 座 上 ， 我 对 哈佛 大 学 医学 院 的 大 
卫 : 休 伯 尔 和 托 斯 坦 . 威 泽 尔 在 记录 视觉 皮层 里 捍 个 神经 元 方面 所 取得 的 
进展 印象 深刻 。 如 果 物 理学 不 是 理解 大 脑 工作 原理 的 捷径 ， 那 么 有 可 
能 是 神经 科学 。 由 于 他 们 在 初级 视觉 度 层 中 的 开创 性 工作 ， 休 伯 尔 和 
威 泽 尔 共同 获得 了 1981 年 的 庄 贝 尔 生理 学 或 医学 奖 。 (他 们 的 发 现 是 
深度 学 习 的 基础 ， 接 下 来 会 在 第 5 章 中 讨论 ， 也 是 第 9 章 的 主题 。) 


大 脑 如 何 处 理 问 题 


1978 年 在 普林斯顿 获得 物理 学 博士 学 位 后 ， 我 参加 了 位 于 伍 效 霍 
尔 市 的 海洋 生物 学 实验 室 举办 的 为 期 10 周 的 深度 实验 神经 生物 学 夏季 
课程 。 上 课 的 第 一 天 ， 我 穿着 一 件 赣 色 休 闲 外 套 和 狗 交 得 十 分 平整 的 
卡其 色 裤 子 ， 却 被 课程 讲师 之 一 的 斯 托 里 : 兰 迪 斯 (Story Landis) 带 到 
一 边 ， 她 给 我 天 了 我 人 生 中 的 第 一 条 牛仔裤 。 斯 托 里 当时 是 哈佛 大 学 
神经 生物 学 系 的 教员 ， 后 来 在 美国 国立 卫生 研究 院 (以 下 简称 NIH) 1H 
任国 家 神经 疾病 和 中 风 研 究 所 主任 。 一 想起 她 ， 我 就 会 想到 这 件 事 。 


署 期 谍 程 结束 后 ， 我 在 9 月 份 又 待 了 几 个 星期 ， 想 要 完成 我 之 前 开 
局 的 一 个 项 目 。 效 鱼 和 鳃 形 目 (包括 鳃 科 ) 能 够 感知 非常 微弱 的 电 
场 ， 事实 上 ， 它 们 甚至 可 以 感受 到 横 罕 大 西洋 的 1.5 伏 电池 的 信号 。 乞 
代 这 种 第 六 感 ， 鲫 鱼 可 以 通过 它们 在 地 球 磁 场 中 运动 产生 的 微弱 电信 
号 来 识别 方向 ， 而 这 一 过 程 产生 的 晕 伏 级 的 信号 可 以 被 它们 的 电 接收 
器 感知 。 我 在 项 目 中 获得 了 鳃 鱼 电 感受 器 令 人 叹为观止 的 电子 显微镜 
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我 正在 伍兹 霍 尔 Loeb Hall 大 楼 的 地 下 室 拍 照 的 时 候 ， 意 外 地 接 到 
了 哈佛 医学 院 神经 生物 学 系 创始 人 斯 蒂 芬 - 库 夫 勒 (Stephen Kuffler) 的 
一 个 电话 。 库 夫 勒 是 神经 科学 领域 的 传奇 人 物 ， 成 为 他 实验 室 里 的 一 
名 博士 后 研究 员 ， 是 我 人 生 的 一 个 转折 点 。 在 搬 去 波士顿 之 前 ， 我 完 
成 了 与 导师 艾 伦 . 盖 尔 普 林 (Alan Gelperin) 共同 进行 的 一 个 绘制 大 蜂 
蛤 的 足 神经 节 代 谢 活 动 的 短期 博士 后 项 目 。 5) 从 那 以 后 ， 我 每 次 吃 
蜗牛 都 会 不 由 自主 地 想到 它 的 大 脑 。 艾 伦 师承 自 一 系列 研究 动物 行为 
神经 基础 的 神经 科学 家 。 我 所 学 到 的 是 ， 无 将 椎 动物 中 所 谓 的 简单 神 
经 系统 ， 实 际 上 比 进化 阶梯 上 那些 更 高 级 动物 器 官 里 的 更 复杂 ， 因 为 
无 脊椎 动物 必须 依赖 更 少 的 神经 元 存活 ， 每 个 神经 元 都 是 高 度 特异 化 
的 。 我 也 开始 明白 ， 没 有 行为 支持 ， 神 经 科学 的 任何 东西 都 讲 不 通 。 
[16] 

在 库 夫 勒 的 实验 室 里 ， 我 研究 了 牛蛙 交感 神经 节 一 个 突 触 的 迟 慢 
兴奋 性 反应 ( 见 图 4-5) ， 它 的 反应 速度 是 位 于 同一 神经 元 的 另 一 个 突 
触 上 的 快速 的 毫秒 级 兴奋 性 反应 的 /60000 «. [17] 这 些 神经 节 含 有 形成 
牛蛙 自主 神经 系统 输出 的 神经 元 ， 可 以 对 腺 体 和 内 部 器 官 进行 调节 。 
在 刺激 到 突 触 的 那个 神经 后 ， 我 有 充分 的 时 间 去 倒 杯 咖啡 再 返回 座位 
一 一 从 突 触 输入 到 神经 元 达到 峰值 会 花 上 1 分 钟 左右 ， 然 后 神经 元 会 再 
用 10 分 钟 恢复 到 初 态 。 突 触 是 大 脑 中 基本 的 计算 单元 ， 而 突 触 类 型 的 
多 样 性 不 可 小 靓 。 这 次 经 历 告诉 我 ， 复 杂 性 可 能 不 是 通 向 理解 大 脑 功 
能 的 坦途 。 为 了 理解 大 脑 ， 我 必须 了 解 ， 大 自然 如 何 通过 进化 早早 就 
解决 了 大 量 的 问题 ， 并 将 这 些 解 决 方案 自 下 而 上 地 传递 给 进化 链 上 的 
物种 。 我 们 大 脑 中 的 离子 通道 在 几 十 亿 年 前 的 细菌 体内 就 存在 了 。 


图 4-5 ERES RIZE ABB. o PETZ I, IUE SOR A ABT Sd A I US E EE Be RE 
的 腺 体 。 它 们 体积 很 大 ， 产 生 的 电信 号 很 容易 就 能 被 微 电 极 记录 下 来 《图 片 底 部 ) 。 它 们 没有 
树 突 ， 可 以 通过 神经 (图 片 顶 部 的 背景 ) 或 化 学 物质 (图 片 顶 部 ， 一 对 微量 移 液 器 ) 进行 电 刺 
激 。 刺 激 神经 会 引发 三 种 不 同 的 突 触 信 号 : 一 种 是 快速 的 毫秒 级 兴奋 性 反应 ， 类 似 于 神经 肌肉 
连接 处 的 兴奋 反应 ; 一 种 是 较 慢 的 兴奋 性 反应 ， 在 10 秒 后 达到 峰值 ， 持 续 1 分 钟 ， 还 有 一 种 是 
迟 慢 兴奋 性 反应 ， 在 1 分 钟 后 达到 峰值 ， 持 续 10 分 钟 。 这 说 明 即 使 是 最 简单 的 神经 元 也 存在 较 
宽 的 反应 时 间 跨 度 。 图 片 来 源 : S.W. Kuffler, T. J. Sejnowski, “Peptidergic and Muscarinic 

Excitation at Amphibian Sympathetic Synapses” Journal of Physiology 341(1983): 257-278, plate I ° 
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计算 机 科学 的 兴起 


但 是 如 采 物 理学 太 侧 单 ， 生 物 学 又 过 于 复杂 ， 我 应 该 在 哪里 寻求 
指导 呢 ? 与 物理 学 中 的 力 不 同 ， 大 脑 回 路 有 一 个 目的 ， 束 是 解决 计算 
问题 ， 比 如 看 见 和 移动 ， 以 便 在 世界 上 生存 。 即 使 是 一 个 关于 神经 元 
如 何 工 作 的 完美 的 物理 模型 ， 也 不 会 告诉 我 们 它 的 目的 是 什么 。 神 经 
元 负 员 处 理 携带 信息 的 信号 ， 而 计算 则 是 试图 理解 大 目 然 这 一 过 程 中 
缺失 的 环 广 。 我 在 过 去 的 40 年 中 一 直 在 退 求 这 一 目标 ， 并 开创 了 一 个 
新 的 领域 ， 叫 作 “ 计 算 神 经 科学 ”。 


FEMI KASEI KAR REE SALE Za, AN ea 
返回 了 英格兰 ， 在 剑桥 医学 研究 理事 会 (MRC) 的 应 用 心理 学 部 门 找 
到 了 一 个 研究 职位 。1981 年 的 一 天 ， 他 在 次 展 两 点 接 到 一 个 电话 ， 对 
方 自 称 是 加 利 福 尼 亚 州 由 洛 阿尔 托 市 (Palo Alto) 系统 开发 基金 会 总 裁 
查尔斯 :史密斯 (Charles Smith) 。 [19] 史密斯 表示 ， 他 的 基金 会 希望 
为 潜在 的 、 有 前 景 的 ， 但 风险 较 高 、 成 功 布 望 渺茫 的 研究 提供 资金 ， 
而 有 人 强烈 推荐 了 杰 弗 里 。 杰 弗 里 不 确定 这 件 事 可 不 可 靠 。 作 为 我 的 
一 个 好 朋友 ， 祥 弗 里 回 史 密斯 所 到 了 我 的 研究 ， 告 诉 他 我 的 研究 成 功 
的 概率 比 他 的 还 要 小 。 

基金 会 是 货真价实 的 ， 还 为 我 们 提供 了 第 一 笔 款 项 ， 这 大 大 加 快 
了 我 们 的 研究 进度 。 我 们 可 以 买 得 起 运算 能 力 更 强大 的 电脑 ， 并 吸引 
更 多 的 学 生 加 入 。 在 杰 弗 里 加 入 位 于 匹兹堡 的 卡 内 基 - 梅 隆 大 学 时 ， 他 
用 一 台 炫 酷 的 Lisp 机 H9] 取代 了 他 的 二 代 苹 果 电脑 ， 而 在 我 搬 到 巴尔 


的 摩 的 约翰 . 霍 普 金 斯 大 学 时 ， 我 短暂 地 拥有 过 比 整 个 计算 机 科学 系 还 
要 多 的 计算 能 力 。 [20] 我 还 购买 了 第 一 个 将 霍 普 金 斯 与 阿 帕 网 

(ARPANET， 互 联网 的 前 身 ) 连接 超 来 的 调 抽 解 调 器 这 样 杰 弗 里 和 
我 距 可 以 互相 发 送 电 子 邮 件 了 。 能 够 在 新 的 起 点 有 个 好 的 开端 ， 我 们 
都 感到 很 满意 (图 4-6) ° 


图 4-6 我 和 FH EARLE NE LITEM mv (照片 拍摄 于 1980 年 ) 。 这 是 杰 弗 里 和 我 在 


拉 符 亚 的 并 行 模型 研讨 会 上 见面 的 一 年 之 后 。 又 过 了 一 年 ， 我 在 位 于 巴尔 的 摩 的 约 更 . 霍 普 金 
斯 大 学 成 立 了 自己 的 实验 室 ， 而 杰 弗 里 在 匹兹堡 的 卡 内 基 - 梅 隆 大 学 也 创立 了 他 的 研究 小 组 。 
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在 我 上 幼儿 园 之 前 ， 最 早期 的 记忆 中 有 这 人 么 一 个 场景 一 一 我 上 采 奢 
一 堆 拼 图 ， 以 形状 、 颜 色 和 图 案 为 线索 来 匹配 它们 。 我 的 父母 会 在 聚 
会 上 硅 光 他 们 还 在 踏 中 学 步 的 儿子 能 够 快速 熟练 地 完成 拼图 ， 而 那些 
朋友 常常 对 此 表现 得 很 惊讶 。 我 那 时 还 没有 意识 到 ， 我 的 大 脑 正 在 完 
成 它 最 擅长 的 工作 一 一 通过 模式 识别 来 解决 问题 。 科 学 充满 了 各 种 各 
样 的 问题 ， 就 像 拼图 中 缺失 的 部 分 和 对 拼合 后 画面 的 模糊 提示。 大 脑 
如 何 解决 问题 ， 是 终极 谜 题 。 


去 姆 霍 兹 俱乐部 (The Helmholtz Club) 是 南 加 州 视 觉 科 学 家 们 组 
成 的 一 个 小 团体 。 这 些 科学 家 来 自 加 州 大 学 对 和 迭 莱 、 洛 杉 矶 和 尔 湾 三 
个 分 校 ， 以 及 加 州 理工 学 院 和 南 加 州 大 学 ， 他 们 每 个 月 都 会 找 一 个 下 
午 在 加 州 大 学 尔 湾 分 校 会 面 。 D 赫 尔 曼 . 冯 : 亥 姆 霍 效 (Hermann von 
Helmholtz) 是 19 世 纪 的 一 位 物理 学 家 和 医生 ， 他 发 明了 一 套 天 于 视觉 
的 数学 理论 和 实验 方法 ， 构 成 了 我 们 当今 理解 视觉 感知 的 基础 。 作 为 
俱乐部 的 秘书 ， 我 要 负责 从 组 织 外 部 邀请 一 位 嘉宾 ， 为 这 15~20 名 成 员 
以 及 他 们 的 客人 进行 演讲 ， 然 后 由 俱乐部 成 员 做 第 二 个 演讲 。 演 讲 是 
互动 性 质 的 ， 大 家 有 充足 的 时 间 进 行 深入 讨论 。 有 一 次 ， 一 位 外 部 演 
讲 人 对 那些 提出 问题 的 人 表现 出 了 惊讶 : “他 们 还 真是 喜欢 倒 根 问 
底 。” 这 些 每 月 的 例会 让 参与 者 收获 了 顶尖 思维 ， 几 乎 吏 是 一 等 音 视 觉 
领域 的 大 师 课 。 [2] 

视觉 是 我 们 最 敏 铬 ， 也 是 被 研究 得 最 多 的 一 种 感官 。 前 额 下 方 的 
眼睛 带 给 了 我 们 精准 敏锐 的 双眼 深度 知觉 ， 而 我 们 的 大 脑 皮 层 中 一 半 
的 部 分 都 是 负责 视觉 的 。“ 有 眼见 为 实 ” 这 人 句 成 语 就 充分 体现 了 视觉 的 特殊 
地 位 。 然 而 ， 也 正 是 这 种 展 好 的 视觉 ， 导 致 我 们 完全 忽视 了 视觉 系统 


背后 巨大 的 计算 复杂 性 ， 大 自然 经 过 数 亿 年 的 进化 才 解 决 了 这 个 问题 
(如 第 2 章 中 所 了 述 ) 。 视 觉 皮 层 的 组 织 结构 为 最 成 功 的 深度 学 习 网 络 提 
供 了 灵感 。 

在 1/10 秒 内 ， 我 们 视觉 皮层 中 的 100 亿 个 神经 元 并 行 工作 ， 能 够 在 
杂乱 的 场景 中 识别 一 个 杯子 ， 即 便 我 们 以 前 可 能 从 未 见 过 那个 杯子 ， 
也 不 论 它 在 什么 位 置 ， 多 大 尺寸 ， 以 什么 角度 面 对 我 们 。 在 普林斯顿 
大 学 读 研究 生 时 期 ， 我 对 视觉 研究 十 分 着 迷 ， 并 且 在 查尔斯 . 格 罗斯 的 
实验 室 工作 了 一 个 夏天 。 他 研究 过 猴子 的 下 里 叶 皮 层 ( 见 图 5-1) , 3f 
在 那里 发 现 了 对 复杂 对 象 ， 如 脸 部 ， 以 及 著名 的 马桶 刷 ， 产 生 反应 的 
神经 元 。[3] 


在 哈佛 医学 院 神 经 生物 学 系 的 上 时候， 我 曾 与 斯 带 分 : 库 夫 勒 一 起 工 
作 ， 他 之 前 发 现 了 视网膜 中 的 神经 节 细 胞 编码 视觉 场景 的 方式 。 如果 
不 是 在 1980 年 过 世 ， 他 可 能 会 与 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 一 起 分 享 
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开始 与 弗朗西斯 : 克 里 克 合作 。 他 于 1977 年 将 研究 重点 从 分 子 遗 传 学 转 
向 神经 科学 ， 并 专注 于 寻找 视觉 意识 的 神经 关联 。 能 够 和 当时 最 伟大 
的 视觉 科学 家 之 一 共事 ， 我 感到 万 分 汞 笋 。 


功能 类 别 判 断 ， 
做 出 决定 简单 的 视觉 形式 、 
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图 5-1 猕猴 视觉 系统 的 信息 流动 示意 图 。 箭 头 表示 视觉 区 域 的 投影 信息 从 视网膜 开始 ， 到 达 视 
觉 处 理 的 每 个 阶段 都 有 若干 毫秒 的 延迟 。 狂 猴 的 视觉 感知 与 我 们 人 类 的 相似 ， 我 们 也 有 相同 的 
视觉 处 理 阶 段 。LGN (lateralgeniculate nucleus) : 外 侧 膝 状 体 ，V1: 初级 视觉 皮层 ; V2: 次 
级 视觉 皮层 ; V4: 视觉 区 4; AIT 和 PIT: 前 下 显 叶 皮层 和 后 下 显 叶 皮层 ; PEC: 前 额 叶 皮层 ; 
PMC: 前 运动 皮层 ; MC: 运动 皮层 。 图 片 来 源 : S.J.Thorpe and M. Fabre-Thorpe, “Seeking 
Categories in the Brain," Science 291, no. 5502 (2001): 261 ° 


和 人 眼 生 如何 看 到 东西 的 


如 果 我 们 跟随 图 像 生成 的 信号 进入 大 脑 ， 就 可 以 看 到 信号 是 如 何 
ee Na ( 见 图 5-1) 。 视 觉 ia 
膜 ， 在 那里 ， 光 感受 器 将 光 转 换 为 电信 号 。 视 网 膜 内 有 两 层 神经 
EME # 间 和 时 间 维度 中 处 理 视觉 信号 MSRP GE meaty 
视神经 。 
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图 5-2 MESA) 斯 带 芬 : 库 夫 勒 、 托 斯 坦 : 威 泽 尔 和 大 卫 - 休 伯 尔 。 哈 佛 医学 院 神经 生物 学 系 
成 立 于 1966 年 ， 这 张 照片 拍摄 于 成 立 后 不 入。 工作 日 里 ， 我 从 来 没有 见 过 他 们 中 的 任何 一 个 人 
在 实验 室 里 戴 着 领带 ， 所 以 这 张 照 片 一 定 是 在 特殊 场合 拍摄 的 。 图 片 来 源 : 哈佛 医学 院 。 


在 1953 年 一 个 结果 对 所 有 哺乳 动物 都 成 立 的 经 典 实验 中 ， 斯 蒂 分 ， 
库 夫 勒 〈 见 图 5-2， 左 ) 记录 了 活 猫 的 视网膜 输出 神经 元 对 光斑 刺激 的 
放电 啊 应 。 他 在 报 乞 中 写 道 ， 当 光斑 作用 于 某 些 答 出 神经 元 的 中 心 区 
域 时 ， 会 出 现 放 电 增 加 的 现象 ， 而 当 光 斑 作 用 于 另 一 些 输出 神经 元 的 


中 心 区 域 时 ， 却 出 现 了 放电 减少 的 现象 。 然 而 ， 在 中 心 的 外 沿 区 域 的 
表现 恰恰 相反 : 给 光 中 心 带 有 撤 光 外 沿 ， 撤 光 中 心 带 有 给 光 外 沿 ( 见 
图 5-3) 。 神 经 节 细 胞 对 光斑 模式 的 反应 被 称 为 “感受 野 ” (receptive 
field) 特性 。 


中 心 给 光 放 电 中 心 撤 光 放 电 


图 5-3 视网膜 中 神经 节 细胞 的 响应 特性 。 这 两 个 环形 代表 了 视网膜 中 两 种 对 大 脑 发 送 编码 信 
息 ， 从 而 让 人 产生 视觉 的 神经 节 细 胞 类 型 。 对 于 中 心 给 光 放 电 (on-center) 类 型 ， 光 斑 投 射 到 
中 心 “ 给 光 区 域 ”(+) ， 并 且 外 围 “ 撤 光 区 域 ”(-) 无 光 时 ， 会 产生 一 系列 放电 尖峰 。 而 中 心 撤 
光 放 电 (off-center) 类 型 则 相反 ， 光 斑 投 射 到 外 圈 (+) ， 并 且 中 心 (C) 无 光 时 ， 会 产生 一 系 
列 放电 尖峰。 光照 的 变化 包含 了 研究 对 象 周 围 的 移动 刺激 和 对 比 边界 的 重要 信息 。 这 些 特性 是 
斯 蒂 芬 . 库 夫 勒 于 1953 年 发 现 的 。 


库 夫 勒 的 主要 研究 兴趣 是 神经 元 之 间 突 触 的 特性 。 我 曾经 问 他 ， 

是 什么 让 他 对 研究 视网膜 产生 了 兴趣 。 他 说 ， 他 之 前 的 实验 室 隶 属于 
约翰 . 霍 普 金 斯 大 学 的 威 尔 默 眼 科研 究 所 (Wilmer Eye Institute) ， 他 的 
研究 要 是 跟 眼 科 无 关 ， 他 会 对 此 感到 不 安 。 他 在 对 视网膜 中 单个 神经 
节 细 胞 的 研究 中 做 了 些 开创 性 的 工作 ， 随 后 把 这 个 研究 项 目 交 给 了 他 
实验 室 的 两 位 博士 后 一 一 大 卫 : 休 伯 尔 和 托 斯 坦 : 威 泽 尔 ， 并 建议 他 们 追 
踪 信 号 进入 大 脑 的 过 程 。1966 年 ， 库 夫 勒 和 他 的 博士 后 研究 员 转 到 哈 
佛 医学 院 ， 创 立 了 世界 上 第 一 个 神经 生物 学 系 。 


大 脑 庆 层 中 的 视觉 


OMB IK FORGE AR ACE, CERE TOOL RE TRI ARTE CEA rea OYE REGI 
经 的 反应 比 挟 状 光 斑 更 强烈 。 皮层 内 的 回路 已 经 对 输入 信和 号 进行 了 转 


换 。 他 们 描述 了 两 种 主要 类 型 的 细胞 ， 定 向 的 简单 细胞 ， 具 有 像 神经 
节 细 胞 那样 的 给 光 和 撤 光 区 域 ( 见 图 5-4) ; 以 及 定向 复杂 细胞 ， 其 神 
经 元 感受 对 里 的 任何 位 置 对 定向 刺激 都 会 产生 同样 的 响应 〈 见 图 5- 
5) œ 


图 5-4 StL BLE zZ P IB] RR unc: 。 这 张 图 片 来 自体 伯 尔 和 威 泽 尔 在 1962 年 发 表 的 
论文 中 关于 发 现 简单 细胞 的 描述 。 DECRE A 产生 给 光 响 应 的 位 置 ， 而 三 角形 代 
SEE CREATE DER fr. - 。 (A) 视网膜 中 的 中 心 给 光 响 应 细胞 “对 比 图 5-3 左 侧 的 示 
意图 ) 。(B) 视 网 膜 细 胞 中 的 中 心 撤 光 响应 细胞 (对 比 图 5-3 右 侧 的 示意 图 ) 。 (C-G) 初级 视 
觉 皮 层 中 多 样 的 简单 细胞 感受 域 ， 与 视网膜 中 的 感受 野 相 比 ， 所 有 这 些 区 域 都 被 拉 长 了 ， 并 且 
给 光 区 和 撤 光 区 的 分 布 更 加 复杂 。 图 片 来 源 : D. H. Hubel and T. N. Wiesel,“Receptive Fields, 
Binocular Interaction and Functional Architecture in the Cat’s Visual Cortex,”Journal of Physiology 
160, no. 1 (1962): 106-154.2, 图 2。 


图 5-5 猫 的 初级 视觉 度 层 中 一 个 复杂 细胞 的 响应 。 这 张 图 片 来 自体 伯 尔 和 威 泽 尔 在 1962 年 发 表 
的 论文 中 关于 发 现 复杂 细胞 的 描述 。 只 要 方向 正确 (图 中 A、B、C 这 三 条 记录 ) ， 一 个 长 而 罕 
的 黑 条 会 引起 大 量 放电 GER) 响应 ， 无 论 它 位 于 复杂 细胞 感受 野 〈 虚 线 ) 内 的 哪个 位 
置 。 而 非 最 优 方向 会 导致 较 弱 的 啊 应 ， 或 根本 没有 响应 (图 中 D、E 这 两 个 记录 ) 。 图 片 来 
Wi: D.H. Hubel and T. N. Wiesel, “Receptive Fields, Binocular Interaction and Functional 
Architecture in the Cat's Visual Cortex,” Journal of Physiology 160, no. 1 (1962):106-154.2, 图 7 » 


视觉 皮层 中 的 每 个 皮层 神经 元 都 可 以 被 认为 是 一 个 视 沉 特征 检测 
器 。 在 视野 中 的 特定 区 域 ， 当 某 些 神经 元 所 偏好 的 特征 信号 输入 高 于 
某 个 病 值 时 ， 这 些 神经 元 就 会 被 激活 。 每 个 神经 元 偏好 的 特征 取决 于 
它 与 其 他 神经 元 的 连接 。 哺 乳 动物 的 新 皮层 (neocortex) 有 6 个 特异 化 
的 层级 。 休 伯 尔 和 威 泽 尔 还 发 现 ， 来 自 两 眼 的 输入 在 皮层 中 间 层 (4) 
左右 交 蔡 排列 ， 这 些 输入 源 目 丘脑 投 寻 的 中 继 站 。 第 4 层 的 单 目 神 经 元 
投射 到 上 层 (2303) 的 神经 元 ， 它 们 接收 双 目 输入 ， 后 者 既 向 上 投射 


到 其 他 皮层 区 域 ， 又 向 下 投射 到 底层 (5306) . IRR MSBP 
层 。 一 段 视神经 元 柱 中 每 个 细胞 的 方 呵 偏好 和 主 服 偏好 十 相同 的 ， 并 
且 在 整个 皮层 内 平滑 地 变化 ( 见 图 5-6) 。 


图 5-6 初级 视觉 皮层 中 一 段 神 经 元 柱 的 立方 模型 。 在 垂直 方向 上 ， 所 有 神经 元 都 具有 相同 的 方 
向 偏好 和 主 眼 优势 。 在 每 平方 毫米 的 皮层 下 ， 有 一 整套 穿 过 皮层 表面 缓慢 变化 的 朝向 (立方 体 
的 前 面 ) ， 以 及 来 自 双 眼 (立方 体 的 右 侧 ) 的 输入 。 图 片 来 源 : D. Hubel, Eye, Brain and 
Vision (New York: WH Freeman and Company, 1988), 131° 


突 触 的 可 塑性 


如 果 一 只 猫 的 一 只 眼睛 在 其 生命 的 最 初 几 个 月 内 被 缝合 ， 那 么 通 
常 由 双眼 驱动 的 皮层 神经 元 将 变 成 单眼 驱动 ， 只 由 睁 开 的 那 只 眼睛 支 
配 。 [4] 单眼 剥夺 改变 了 初级 皮层 中 突 触 的 强度 ， 初 级 皮层 是 神经 元 首 
次 接收 来 自 两 只 眼睛 的 会 聚 输入 的 地 方 。 在 初级 视觉 皮层 的 皮层 可 塑 
性 关键 期 结束 后 ， 闭 合 的 眼睛 将 再 也 不 能 影响 皮层 神经 元 ， 这 样 就 会 
导致 一 种 “弱视 ”症状 。 尽 管 在 婴儿 中 常见 的 未 矫正 、 未 对 准 或 “斜视 ” 状 
况 会 大 大 减少 双眼 皮质 神经 元 的 数目 ， 并 且 阻 止 了 双眼 深度 知觉 ， [3] 
但 如 果 在 关键 期 内 及 时 进行 矫正 眼睛 的 手术 ， 仍 然 可 以 挽救 双眼 神经 
~ 

单眼 剥夺 是 发 育 早期 阶段 存在 的 有 关 高 度 可 塑性 的 一 个 例子 ， 因 
为 环境 会 影响 皮层 和 大 脑 其 他 部 位 的 神经 元 之 间 的 突 触 连接 。 这 些 依 
赖 于 活动 的 变化 凌驾 于 所 有 细胞 持续 不 断 的 更 新 之 上 。 尽 管 我 们 大 脑 


中 的 大 部 分 神经 元 与 我 们 出 生 时 的 神经 元 并 无 二 致 ， [6] 但 几乎 每 个 神 
经 元 的 组 成 部 分 和 连接 它们 的 突 触 ， 每 天 都 会 发 生 转变 。 磨 损 的 蛋白 
质 会 被 替换 ， 膜 中 的 脂 质 也 会 被 更 新 。 有 了 这 么 多 的 动态 转变 ， 就 很 
难 解释 记忆 是 如 何在 我 们 的 有 生 之 年 得 以 维持 的 了 。 

还 有 另外 一 种 关于 记忆 持久 性 的 可 能 解释 ， 它 们 也 许 就 像 我 们 身 
体 上 的 伤疤 ， 已 经 成 为 我 们 生活 中 过 往事 件 的 标记 。 这 些 标 记 并 非 位 
于 不 断 发 生 转变 的 神经 元 内 部 ， 而 是 位 于 外 部 神经 元 之 间 的 空隙 中 ， 
那里 的 细胞 外 基质 由 类 似 疤痕 组 织 中 胶原 蛋白 的 蛋白 聚 糖 构成 ， 这 种 
基质 是 一 种 可 以 维持 多 年 的 坚韧 的 材料 。 Ul 如 果 这 个 猜想 被 证 明 是 真 
实 的 ， 那 就 意味 着 我 们 的 长 期 记忆 被 嵌入 了 大 脑 的 “外 骨骼 >" 中， 而 我 们 
一 直 都 找 错 地 方 了 。 [8] 


突 触 含有 数 百 种 独特 的 生日 质 ， 可 以 控制 神经 递 质 的 释放 和 受 体 
神经 元 上 相应 受 体 的 激活 。 在 大 多 数 情 况 下 ， 突 触 强度 可 以 选择 性 地 
在 很 大 范围 内 增加 或 减少 ， 在 皮层 中 ， 这 个 变化 犯 围 是 100 倍 。 (在 大 
脑 中 发 现 的 突 触 学 习 算 法 的 实例 将 在 后 面 的 章节 中 讨论 。) 更 为 显著 
的 是 ， 皮 层 中 会 不 断 形成 新 的 突 触 ， 并 移 除 旧 的 突 触 ， 这 就 让 它们 成 
为 喘 体 中 最 具 活 力 的 细胞 融 。 大 脑 中 有 大 约 100 种 不 同类 型 的 突 触 ， 其 
中 合 氨 酸 是 皮层 中 最 常见 的 兴奋 性 神经 递 质 ， 而 男 一 种 氨基 酸 一 一 y- 
BFE DER (GABA) 是 最 第 见 的 抑制 性 神经 递 质 。 这 些 神经 递 质 分 子 对 
其 他 神经 元 的 电化 学 影响 伴随 着 很 宽泛 的 时 间 过 程 。 例 如 ， 第 4 章 中 讨 
论 的 牛蛙 交感 神经 世 细 胞 的 突 触 ， 其 啊 应 时 间 斥 度 可 以 从 毫秒 到 分 
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Seay C-4H 52 (Steven Zucker) 〈 见 图 5-7) 专注 于 融合 了 计算 机 视 
觉 和 生物 视觉 的 交叉 领域 的 研究 。 从 我 认识 他 起 ， 他 就 在 写 一 本 解释 


视觉 工作 原理 的 书 ， 到 现在 已 经 有 30 多 年 了 。 问 题 在 于 史 蒂 文 在 视觉 
研究 上 不 断 有 新 的 发 现 ， 就 像 劳 伦 斯 -斯 特 恩 (Laurence Sterne) 在 小 说 
《项 狄 传 》 中 描写 的 主人 公 项 狄 (Tristram Shandy) ALR, Ea XD 
书 也 随 着 主人 公 的 新 发 现 而 越 变 越 长 。 [9] 他 研究 视觉 的 方法 是 基于 初 
级 视觉 皮层 的 精巧 、 规 则 的 结构 ( 见 图 5-6) ， 这 是 一 种 不 同 于 皮层 中 
任何 其 他 部 位 的 结构 ， 其 中 的 神经 元 以 近似 马赛 克 式 的 排列 方式 组 织 
起 来 ， 这 种 排列 的 几何 解释 还 有 待 探究 。 计 算 机 视觉 领域 的 大 多 数 研 
究 人 员 希 望 通过 将 对 象 从 背景 中 分 割 出 来 ， 并 找到 一 些 可 辨识 的 特征 
来 识别 对 象 。 

史 蒂 文 还 有 更 大 的 野心 ， 想 要 了 解 我 们 如 何 从 表面 阴影 以 及 折 痕 
和 初 皱 中 提炼 出 物体 的 形状 。 在 2006 年 神经 科学 学 会 的 年 会 上 ， 那 个 
把 房子 建 得 像 船 帆 一 样 的 建筑 师 弗 兰 克 . 盖 里 (Frank Gehry) ， 在 接受 
采访 时 ， 被 问 及 他 的 建筑 设计 灵感 从 何 而 来 。 (LO) 他 回答 说 ,灵感 来 
自 对 被 抒 皱 的 纸张 的 观察 。 但 是 ， 我 们 的 视觉 系统 又 是 如 何 通 过 裙 委 
和 阴影 表面 的 复杂 图 案 ， 把 皱 巴巴 的 纸张 的 复杂 形状 拼合 起 来 的 呢 ? 
我 们 是 如 何 感知 西班牙 毕 尔 巴 鄂 市 (Bilbao) 古 根 海 姆 博物 馆 
(Guggenheim Museum， 见 图 5-8) 外 墙 那 多 变 的 形状 的 呢 ? 


图 5-7 耶鲁 大 学 史 蒂 文 . 祖 克 ， 光 从 照片 右上 角 打 下 来 。 从 他 毛衣 上 的 阴影 变化 中 ， 你 可 以 察觉 


到 衣服 徊 外 的 形状 。 他 身后 黑板 上 的 方程 式 解 释 了 为 什么 我 们 
猴子 的 视觉 皮层 。 图 片 来 源 ， 史 蒂 文 - 祖 元 。 
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1 这 种 现象 ， 这 一 灵感 来 
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图 5-8 西班牙 毕 尔 巴 吕 市 的 古 根 海 姆 博物 馆 ， 由 弗兰克 : 盖 里 设计 。 来 自 曲 面 的 阴影 和 反射 形成 
了 强烈 的 结构 感 和 动感 。 可 以 参照 通道 上 的 人 影 大 小 来 体会 这 幢 宏 伟 建筑 的 规模 。 


史 带 文 : 祖 克 最 近 已 经 能 够 搞 清 楚 我 们 钙 如 何在 有 阴影 的 图 像 中 看 
到 衬 皱 的， 其 背后 的 解释 是 基于 类 似 山体 等 高 线 图 的 表面 三 维 轮廓 ， 
以 及 图 像 上 等 照度 轮廓 之 间 的 密切 关系 ( 见 图 5-9) 。 UL 这 种 关联 源 
于 表面 的 几何 形状 。 (12) 这 解释 了 为 什么 我 们 对 形状 的 感知 几乎 不 受 
照明 以 及 物体 表面 性 质 差 异 的 影响 。 这 也 可 以 解释 为 什么 我 们 非常 善 
于 阅读 轮廓 明显 的 等 高 线 地 图 ， 以 及 为 什么 只 需要 几 条 特殊 的 内 线束 
可 以 看 出 漫画 中 物体 的 形状 。 


图 5-9 同一 平面 的 等 高 线 图 (左上 ) 和 等 照度 线 〈 恒 定 亮 度 轮廓 线 ， 左 下 ) 。 两 者 在 轮廓 右 侧 
显示 的 临界 点 之 间 产 生 了 相同 的 分 区 。 图 片 来 源 : Kunsberg and Zucker, “Critical Contours: An 
Invariant Linking Image Flow with Salient Surface Organization,” 图 5 ° 


1988 年 ， 西 德 尼 - 莱 基 (Sidney Lehky) 和 我 有 了 一 个 想法 ， 我 们 也 
许可 以 训练 一 个 只 有 一 层 隐藏 单元 的 神经 网 络 来 计算 阴影 曲面 的 曲 
率 。[3] 我 们 成 功 了 ， 而 且 出 人 意料 的 是 ， 隐 藏 单元 的 表现 跟 简 单 细 
胞 非常 相似 。 但 仔细 观察 后 ， 我 们 发 现 并 非 所 有 这 些 “ 简 单 细胞 都 是 相 
同 的 。 通 过 查看 它们 对 输出 层 的 投影 一 该 输出 层 被 训练 通过 使 用 学 
习 算 法 ( 见 第 8 章 ) 来 计算 曲率 -我 们 发 现 一 些 隐藏 单元 被 用 于 分 辨 
正 曲率 (GE) 和 负 曲 率 (UIS) 〈 见 图 5-10) 。 和 一 些 简 单 细胞 一 
样 ， 这 些 单元 是 检测 器 ， 它 们 往往 要 么 是 低 响 应 ， 要 么 是 高 响应 ， 其 
响应 活动 呈 双 峰 分 布 。 相 比 之 下 ， 隐 藏 层 中 的 其 他 单元 具有 分 级 响应 
的 功能 ， 可 以 像 滤波 器 一 样 向 输出 单元 发 送 关 于 曲率 方向 和 大 小 的 信 
Eo 
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图 5-10 阴影 中 的 曲率 。 我 们 的 视觉 系统 可 以 从 边界 轮廓 内 亮度 的 缓慢 变化 中 提取 对 象 的 形状 。 
你 可 以 根据 阴影 方向 以 及 你 对 照明 方向 的 假设 (通常 假设 为 正 上 方 ) 来 分 辨 图 中 的 突出 或 止 
ho E SAUER, BET ee bots Se AHR: V.S. Ramachandran, “Perception of 
Shape from Shading,” Nature 331, no. 6152(1988), 图 2 ° 


这 一 结论 令 人 惊讶 : 神经 元 的 功能 不 仅仅 取决 于 它 如何 对 输入 做 
出 反应 ， 而 且 还 取决 于 它 通过 上 自身 的 “投射 域 " 激 活 的 下 游 神 经 元 。 一 个 
神经 元 的 输出 一 直 以 来 都 比 它 的 输入 更 难 确定 ， 但 新 的 遗传 学 和 解剖 
学 技术 使 得 精确 追 踩 下 游 的 轴 突 投射 成 为 可 能 。 新 的 光 遗 传 学 技术 也 
使 得 选择 性 刺激 特定 神经 元 ， 以 探测 其 对 感知 和 行为 的 影响 成 为 可 
能 。11 全 即便 如 此 ， 我 们 的 小 规模 神经 网 络 只 能 识别 突起 或 叫 陷 的 曲 
率 ， 而 我 们 仍然 不 知道 在 心理 学 文献 中 被 称 为 “格式 塔 * (Gestalts) 
LL] 的 整体 组 织 认 知 是 如 何在 皮层 中 分 布 的 。 


1984 年 ， 史 蒂 文 . 祖 克 和 我 曾 被 困 在 丹佛 斯 台 普 顿 (Stapleton) 
际 机 场 ， 我 们 的 航班 因 暴 风 雪 而 延误 了 。 那 会 儿 我 们 对 当时 正 处 于 起 
步 阶 段 的 计算 神经 科学 感到 兴奋 不 已 ， 于 是 盘算 着 创建 一 个 研讨 会 ， 
将 计算 和 实验 研究 人 员 聚 集 在 一 起 。 我 们 决定 把 地 点 定 在 伍 效 霍 尔 ， 


我 曾经 在 那里 参加 过 一 个 神经 生物 学 的 夏季 谋 程 ， 并 且 在 之 后 好 几 个 
署 期 中 又 回去 ， 与 斯 送 分 ' 库 夫 丢 一 起 在 海洋 生物 实验 室 做 过 生理 实 
验 。 伍 效 霍 尔 是 鲍鱼 角 附近 的 一 个 美丽 的 村 子 ， 离 波士顿 不 还 。 多 年 
来 ， 许 多 视觉 研究 领域 的 领军 人 物 都 参加 了 这 个 年 度 研讨 会 ， 这 对 我 
来 说 是 另 一 个 科学 制高点 。 视 觉 诺 层 计算 理论 就 诞生 于 这 些 研讨 会 ， 
尽管 对 该 理论 的 确认 还 需要 30 年 。 (在 第 9 章 中 ， 我 们 将 看 到 最 成 功 的 
深度 学 习 网 络 的 结构 与 视觉 皮层 的 结构 非常 相似 。) 
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乔 恩 : 卡 斯 (Jon Kaas) 和 约翰 : 奥 尔 曼 (John Allman) 于 20152170 
年 代 早 期 ， 在 威斯康星 大 学 神经 生理 学 系 研 究 从 初级 视觉 皮层 接受 输 
入 的 皮层 区 域 ， 发 现 了 不 同 区 域 具 有 不 同 的 特性 。 例 如 ， 在 一 个 他 们 
称 为 “中 间 晒 时 皮层 ” (middle temporal cortex) 或 “MT” 的 区 域 ， 他 们 发 
现 了 一 些 视 觉 区 域 ， 它 们 的 神经 元 对 定 辣 移动 的 视觉 刺激 能 够 做 出 反 
应 。 奥 尔 曼 疝 我 提 到 ， 他 们 当时 很 难 让 系 主任 克林顿 . 伍 尔 西 (Clinton 
Woolsey) 接受 这 个 发 现 。 卡 斯 和 奥 尔 曼 用 较 先进 的 记录 技术 发 现 了 这 
些 纹 外 视觉 皮层 (extrastriate visual cortex) 的 区 域 ， 而 在 较 早 的 实验 
中 ， 伍 尔 西 由 于 使 用 的 记录 技术 相对 粗糙 ， 与 这 一 发 现 控 肩 而 过 。 
[16] 最 近 的 研究 在 猴子 的 视觉 皮层 中 找到 了 二 十 几 个 视觉 区 域 。 

1991 年 ， 还 在 加 州 理工 学 院 的 大 卫 : 范 : 艾 森 (David Van Essen) ff 
细 人 研究 了 皮层 每 个 视觉 区 域 的 输入 和 输出 ， 并 将 它们 按 层 级 排列 了 出 
来 〈 见 图 5-11) 。 这 张 图 有 了 时 仪 仅 被 用 于 说 明 皮 层 的 复杂 性 。 它 就 像 
一 座 大 城市 的 地 铁 图 ， 其 中 方 框 代 表 地 铁 站 ， 各 种 颜色 的 线 代 表 地 铁 
线路 。 视 网 膜 神经 细胞 (RGC) 的 视觉 输入 投 映 到 图 表 底 部 的 初级 
视觉 皮层 (V1) 。 从 那里 开始 ， 信 和 号 被 向 上 传送 到 层级 结构 中 ， 每 个 
区 域 专门 负责 视觉 的 不 同方 面 ， 例 如 形态 感知 。 靠 近 图 右 侧 的 层级 示 
意图 顶部 ， 下 炎 叶 皮层 的 前 部 、 中 部 和 后 部 (AIT ` CITH PIT) 区 域 


中 的 神经 元 的 感受 野 覆 盖 了 整个 视觉 区 域 ， 并 对 复杂 的 视觉 刺激 如 脸 
部 和 其 他 对 象 做 出 优先 反应 。 虽 然 我 们 不 知道 神经 元 是 如 何 做 到 这 一 
点 的 ， 但 我 们 确实 知道 连接 的 强度 可 以 通过 经 验 来 改变 ， 如 此 一 来 ， 
神经 元 就 可 以 学 习 如 何 对 新 对 象 做 出 反应 。 范 . 艾 森 后 来 去 了 圣路易斯 
的 华盛顿 大 学 ， 在 那里 他 被 任命 为 NIH 资 助 的 人 脑 连 接 组 项 目 (HCP) 
的 联合 主任 。 OZ) 他 的 研究 小 组 的 工作 是 使 用 基于 磁 共 振 成 像 
(MRI) 技术 ， 8l 来 生成 人 体 大 脑 皮层 中 的 长 程 连接 图 ( 见 图 5- 
12) 。 


图 5-11 猴 脑 中 视觉 区 域 的 层级 结构 图 。 视 觉 信 息 从 视网膜 神经 节 细 胞 RGC) 映 冉 到 丘脑 的 外 
则 膝 状 核 (LGN) ， 其 中 继 细 胞 投射 到 初级 视觉 皮层 (V1) 。 皮 层 区 域 的 层级 结构 终止 于 海 
Sk (HC) 。 图 中 所 有 的 187 个 连接 几乎 都 是 双向 的 ， 有 源 目 较 低 区 域 的 前 馈 连 接 和 源 目 较 高 


区 域 的 反馈 连接 。 图 片 来 源 : D.J. Fellemanand D. C. Van Essen, “Distributed Hierarchical 
Processing in Primate Visual Cortex,” Cerebral Cortex 1,no. 1 (1991): 30, 图 4。 


图 5-12 人 脑 连 接 组 。 基 于 水 分 子 不 均匀 扩散 的 磁 共振 成 像 能 够 以 一 种 非 侵入 性 的 方式 追踪 脑 白 
质 中 的 长 程 纤维 束 。 不 同 的 颜色 标注 了 不 同 的 路 径 方 向 。 图 片 来 源 : The Human Connectome 


Project。 


认 知 神经 科学 的 诞生 


1988 年 ， 我 兽 服务 于 麦克 唐 奈 和 皮 尤 基金 会 (McDonnell and Pew 
Foundations) 的 一 个 委员 会 ， 需 要 走访 知名 的 认 知 科学 家 和 神经 科学 


家 ， 就 如 何 启动 一 个 名 为 * 认 知 神经 科学 ”的 新 领域 听取 建议 。 29] 该 
委员 会 轧 转 于 世界 各 个 国家 ， 与 专家 会 面 ， 听 取 他 们 天 于 哪些 科学 专 
题 最 有 前 途 ， 以 及 在 哪里 建设 新 的 认 知 神经 科学 研究 中 心 的 建议 。8 月 
的 一 个 烈日 炎炎 的 下 午 ， 我 们 在 哈佛 大 学 教员 俱乐部 征询 了 杰 瑞 : 福 多 
(Jerry Foder) 的 意见 ， 他 是 思想 语言 方面 的 专家 ， 也 是 模块 化 思想 的 
倡导 者 。 他 开门 见 山 ， 直 接 驶 斥 了 我 们 的 战略 , “ 认 知 神经 科学 不 是 一 
门 科学 ， 而 且 永 远 不 会 是 ”。 他 给 人 的 印象 是 ， 他 已 经 阅读 了 天 于 视觉 
和 记忆 的 所 有 神经 科学 论文 ， 但 这 些 文章 都 没有 达到 他 的 标准 。 但 是 
当 他 评论 说 “麦当劳 基金 会 正在 浪费 它 的 资金 时， 麦克 唐 妹 基金 会 主席 
约翰 : 布 鲁 尔 (John Bruer) 立刻 束 指 出 ， 福 多 把 他 的 基金 会 和 街头 制作 
汉堡 包 的 地 儿 摘 混 了 。 
福 多 丝毫 不 为 所 动 。 他 解释 了 为 什么 头脑 应 该 被 当 作 运行 智能 计 
算 机 程序 的 模块 化 符号 处 理 系统 。 加 州 大 学 圣迭戈 分 校 的 哲学 家 由 特 
里 夏 . 丘 奇 兰 德 (Patricia Churchland) 问 他 的 理论 是 否 也 适用 于 猫 。“ 是 
的 ，” 福 多 说 ,，“ 猫 正在 运行 猫 程序 。*” 但 是 当 NIH 人 研究 视觉 和 记忆 的 神 
经 科学 家 莫 蒂 默 : 米 什 金 (Mortimer Minshkin) 让 他 介绍 他 自己 的 实验 
室 的 发 现时 ， 福 多 嘟 嘻 着 说 了 一 些 我 听 不 太 懂 的 话 ， 好 像 是 关于 在 语 
言 实验 中 的 事件 相关 电位 。 笠 运 的 是 ， 那 一 刻 ， 消 防 演习 的 警 铃 响 
了 ， 我 们 都 被 要 求 去 室外 等 待 。 站 在 院子 里 ， 我 听 到 米 什 金 对 福 多 
说 : “ASE AR ERER/ IRS o YEAR, TS RARE e 
认 知 神经 科学 已 经 发 展 成 为 一 个 重要 的 领域 ， 吸 引 了 各 个 科学 领 
域 的 很 多 人 研究 人 员 ， 包 括 社 会 心理 学 和 经 济 学 ， 这 些 领域 以 前 与 神经 
科学 很 少 有 或 没有 任何 直接 联系 。 使 这 一 切 成 为 可 能 的 是 在 20 世 纪 90 
年 代 早 期 采用 的 非 侵 入 式 大 脑 活动 可 视 化 方法 ， 尤 其 是 功能 位 共振 成 
f& (fMRI) ， 其 目前 的 空间 分 辩 率 为 儿 蝇 米 。fMRI 生 成 的 庞大 的 成 像 
数据 集 被 交 由 新 的 计算 方法 进行 分 析 ， 如 独立 分 量 分 析 (将 在 第 6 章 讨 


论 ) 。 


由 于 大 脑 在 缺 所 的 情况 下 无 法 运转 ， 并 且 血 流 在 亚 襄 米 级 别 被 严 
格 控制 ，fMRI 所 测量 的 血 氧 水 平 依赖 (BOLD) 信号 就 被 当 作 大 脑 活 
动 的 蔡 代 指标 。 了 血液 中 的 含 氧 量 改变 了 它 的 磁性， 可 以 用 fMRI 进行 无 
创 监 测 ， 并 且 以 几 秒 的 时 间 分 辩 率 产生 大 脑 活 动 的 动态 图 像 。 这 种 时 
间 分 辨 紊 足 够 追踪 在 实验 过 程 中 大 脑 的 哪些 部 分 在 活动 。 fMRI 已 经 被 
用 于 探索 视觉 层级 结构 不 同 部 分 的 时 值 整合 。 

普林斯顿 大 学 的 尤 里 : 哈 森 (Uri Hasson) 进行 了 一 项 fMRI 实验 ， 
旨 在 探究 视觉 层级 的 哪些 部 分 涉及 处 理 不 同 长 度 的 电影 。 [20] 查理 . 卓 
别 林 (Charlie Chaplin) 的 无 声 电 影 被 剪辑 为 4 秒 、12 秒 和 36 秒 的 片段 呈 
现 给 受 试 者 。 在 4 秒 的 剪辑 中 ， 受 试 者 可 以 识别 一 个 场景 ;12 秒 时 ， 可 
以 看 清 连 接 的 动作 ; 在 36 秒 的 长 度 下 ， 能 够 看 到 一 个 有 开头 和 结尾 的 
故事 。 在 层级 底部 的 初级 视觉 皮层 中 的 fMRI 反 应 ， 无 论 在 什么 样 的 时 
间 尺 度 上 ， 都 强大 且 可 靠 。 但 在 视觉 等 级 的 较 高 层次 上 ， 只 有 较 长 的 
时 间 尺 度 才能 引起 可 靠 的 反应 ， 而 位 于 层级 顶层 的 前 额 叶 皮 层 区 需要 
最 长 的 时 间 间 隔 。 这 与 其 他 实验 结果 一 致 ， 即 工作 记忆 也 按照 层级 分 
布 。 工 作 记 忆 是 我 们 掌握 信息 的 能 力 ， 比 如 要 记 住 的 电话 号 码 ， 以 及 
我 们 正在 处 理 的 任务 的 要 素 。 最 长 的 工作 记忆 时 间 尺 度 同 样 位 于 前 额 
IY RE e 

作为 神经 科学 中 最 让 人 兴奋 的 学 术 领 域 之 一 ， 对 大 脑 学 习 行 为 的 
研究 可 以 在 不 同 的 层面 进行 ， 从 分 子 层面 到 行为 层面 。 


[1] 由 克 里 克 、 拉 马 钱 德 兰 (V.S.Ramachandran) 和 戈 登 . 肖 (Gordon Shaw) 在 20 世 纪 80 
年 代 建 立 的 辫 姆 霍 效 俱乐部 持续 活跃 了 20 多 年 。 关 于 它 的 历史 ， 可 以 参阅 C. Aicardi, “Of the 
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我 不 知道 你 是 否 听 说 过 这 个 团体 。.………. 也 们 大 概 有 20 个 人 。 我 从 来 没有 错过 一 次 他 们 的 例会 。 
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要 事 年 表 


1949 年 


唐纳德 . 替 布 (Donald Hebb) 出 版 了 《行为 的 组 织 》 (The 
Organization of Behavior) 一 书 ， 提 出 了 有 关 突 触 可 塑性 的 赫 布 定律 
(Hebb Rules) 。 


19824 


约翰 : 霍 普 菲尔德 (John Hopfield) 发 表 了 文章 《具有 突 发 性 集体 
计算 能 力 的 神经 网 络 和 物理 系统 》 (Neural Networks and Physical 
Systems with Emergent Collective Computational Abilities) ， 其 中 介 


ATEREA (Hopfield net) o 
1985 年 


杰 弗 里 .: 辛 顿 和 我 发 表 了 文章 《 玻 尔 兹 曼 机 的 一 种 学 习 算 法 》 (A 
Learning Algorithm for Boltzmann Machines) ， 这 是 马 文 . 明 斯 基 和 
西 摩尔 - 帕 普 特 被 广泛 接受 的 观点 的 反例 ， 后 者 认为 为 多 层 网 络 开发 学 
习 算 法 是 不 可 能 的 。 

1986 年 


大 卫 . 鲁 姆 哈 特 (David Rumelhart) 和 杰 弗 里 . 辛 顿 发 表 了 文章 

《通过 误差 传播 学 习 内 在 表征 》 (Learning Internal Representations 

by Error-Propagation) ， 其 中 介绍 了 当前 用 于 深度 学 习 的 “ 反 
传 ” (backprop) 学 习 算 法 。 


1988 年 


理 查 德 . 萨 顿 (Richard Sutton) 在 《机 器 学 习 》 杂 志 上 发 表 了 文 
章 《 通 过 时 序 差分 方法 学 习 预 测 》 (Learning to Predict by the 
Methods of Temporal Differences) 。 时 序 差 分 学 习 现 在 被 认为 是 在 所 
有 大 脑 中 进行 奖励 学 习 的 算法 。 
1995 年 


安东尼 :贝尔 (Anthony Bell) 和 我 发 表 了 文章 《一 种 用 于 盲 分 离 
和 盲 解 卷 积 的 信息 最 大 化 方法 》 ( An Information-Maximization 
Approach to Blind Separation and Blind Deconvolution) ， 描 述 了 一 
种 用 于 独立 分 量 分 析 (Independent Component Analysis，ICA) 的 无 
监督 算法 。 


2013 年 


杰 弗 里 . 辛 顿 在 2012 年 NIPS 会 议 上 发 表 的 论文 《深度 卷 积 神经 网 络 
下 的 ImageNet 分 类 》 ( ImageNet Classification with Deep 
Convolutional Neural Networks) ， 将 图 像 中 对 象 分 类 的 错误 率 降低 
到 了 18%。 


2017 年 
深度 学 习 网 络 程序 AlphaGo， 击 败 了 围棋 世界 冠军 柯 洁 。 


06 
语音 识别 的 突破 


在 一 个 拥挤 的 鸡尾酒 会 上 ， 当 空气 中 弥漫 着 其 他 人 谈 笑 的 嘲 杂 声 
时 ， 想 要 听见 你 面前 的 人 说 话 古 很 费劲 儿 的 。 你 的 两 只 耳 示 有 助 于 你 把 
听力 集中 在 正确 的 方向 ， 而 你 的 记忆 可 以 填补 疫 听 清 的 谈话 内 容 。 现 在 
想象 一 下 ， 房 间 里 正在 举行 一 个 有 100 人 参加 的 鸡尾酒 派对 ， 四 周 还 有 
100 个 以 任意 方向 排 布 的 麦克 风 。 每 个 麦克 风 都 会 采集 所 有 人 的 声音 ,但 
征 每 个 考 元 风 针 对 每 个 人 采集 的 声音 振幅 比 不 同 。 是 否 有 可 能 设计 出 一 
种 算法 ， 将 每 种 声音 分 离 成 单独 的 输出 声 道 ? 或 者 更 复杂 点 ， 如 采 声 音 
来 源 旦 未 知 的 ， 比 如 混合 了 音乐 、 担 手 声 、 目 然 声 音 ， 甚 至 是 随机 的 噪 
声 呢 ? 这 就 是 所 谓 的 “ 盲 源 分 离 问题 ”〈 见 图 6-1) ° 


1986 年 4 月 13 一 16 日 ， 在 犹他 州 雪 乌 城 举办 的 神经 网 络 计 算 会 议 ， 也 
就 是 AIP 会 议 (NIPS 大 会 的 前 身 ) 上， 出 现 了 一 个 题 为 《利用 神经 网 络 
模型 进行 空间 或 时 间 自 适应 信号 处 理 》 (Space or Time Adaptive Signal 
Processing by Neural Network Models) 的 墙报 。 它 的 作者 詹 妮 : 埃 罗 

(Jeanny Herault) 和 克里斯蒂 安 . 于 滕 (Christian Jutten) 使 用 了 一 种 学 习 
算法 ， 对 输入 给 神经 网 络 模 型 的 混合 正弦 波 ( 均 为 纯 频率 ) 进行 了 盲 分 
离 ， 并 指出 了 一 类 新 的 无 监督 学 习 算 法 。[ 耻 虽然 当时 还 不 知道 是 否 存 
在 一 种 可 以 育 分 离 其 他 类 型 信号 的 通用 解决 方案 ， 但 十 年 之 后 ， 安 东 尼 ， 
贝尔 和 我 发 现 了 一 种 可 以 解决 一 般 问题 的 算法 。 [2] 


图 6-1 BURA ° SURAT EA PAL Be y BS ps [8] E [s] soi BENS E UA AP te DAB 
Ale EE NA Se BRR aS o 该 实验 的 挑战 就 在 于 ， 如 何在 对 信号 的 相关 信息 一 无 所 知 的 情况 
下 将 两 个 声音 彼此 分 开 。 独 立 分 量 分 析 是 一 种 学 习 算法 ， 可 以 在 不 了 解 信息 产 的 情况 下 解决 这 个 


问题 。 


在 嘲 杂 中 找到 你 的 声音 


感知 器 是 一 个 有 单一 神经 元 的 神经 网 络 。 复 杂 度 略 高 于 感知 器 的 次 
简单 网 络 体系 结构 在 输出 层 中 有 多 个 模型 神经 元 ， 每 个 输入 神经 元 都 会 
连接 到 一 个 输出 神经 元 ， 该 结构 将 输入 层 中 的 模式 转换 为 输出 层 中 的 模 
式 。 这 个 网 络 不 仅 可 以 对 输入 进行 分 类 ， 还 可 以 学 习 如 何 进 行 育 源 分 


-a 


A o 
1986 年 ， 安 东 尼 :贝尔 ( 见 图 6-2) 还 是 一 名 在 苏黎世 联邦 理工 学 院 
(ETH Zurich) 进行 暑期 实习 的 本 科 生 。 他 很 早 就 对 神经 网 络 产生 了 兴 
趣 ， 曾 前 往日 内 瓦 大 学 聆听 来 目 神经 网 络 领域 前 府 们 的 4 个 演讲 。 在 布 鲁 


塞 尔 大 学 获得 博士 学 位 后 ， 他 于 1993 年 前 往 拉 荷 亚 ， 加 入 了 我 的 实验 
室 ， 担 任 博 士 后 研究 员 。 


图 6-2 正在 独立 思考 的 安东尼 :贝尔 ， 当 时 他 正在 从 事 独 立 分 量 分 析 研 究 (照片 拍摄 于 1995 年 前 
后 ) 。 某 个 领域 的 专家 试图 解决 一 个 问题 时 ， 常 常 无 法 实现 突破 ， 有 时 反倒 是 第 一 次 接触 这 个 问 
题 的 人 能 找到 新 方法 并 解决 问题 。 安东尼 和 我 发 现 了 种 迭代 算法 来 解决 言 源 分 离 问题 ， 这 个 算 
法 现在 已 经 是 工程 学 教科 书 里 的 内 容 ， 并 且 有 了 数 千 个 应 用 实例 。 图 片 来 源 ， 安 东 尼 :贝尔 。 


“通用 信息 最 大 化 学 习 原 理 ” (general infomax learning principle) 最 
大 限度 地 提高 了 通过 网 络 传递 的 信息 量 。 D9] 安东尼 当时 正在 研究 树 突 
中 的 信号 传输 。 树 突 束 像 细 长 的 电费， 大脑 的 神经 元 通过 附着 在 树 突 上 
的 数 以 千 计 的 突 触 收集 信息 。 他 和 赁 直觉 认为 ， 通 过 改变 树 突 中 离子 通道 
的 密度 ， 可 以 最 大 限度 地 提高 树 突 中 流通 的 信息 量 。 在 简化 问题 的 过 程 
中 (ARWR) ， 安 东 尼 和 我 发 现 了 一 种 新 的 信息 理论 学 习 算法 ， 我 们 


称 之 为 “独立 分 量 分 析 ICA) ”， 它 解决 了 言 源 分 离 问题 (见方 框 
6.1) 。 [4] 


独立 分 量 分 析 已 经 有 了 数 千 个 应 用 实例 ， 而 且 已 经 出 现在 了 信和 号 处 
理 的 教科 书 中 。 [3] 在 被 应 用 于 户外 场景 的 自然 图 像 的 碎片 中 时 ， 独 立 
} 量 分 析 的 独立 成 分 是 局 部 化 的 定向 边缘 滤波 器 〈 见 图 6-3) ， 类 似 于 猫 
和 猴子 的 视觉 皮层 中 的 简单 细胞 ( 见 图 5-4) 。 [6] 采用 独立 分 量 分 析 方 
法 时 ， 只 需要 很 少 的 信息 源 就 能 重建 一 幅 图 像 中 的 一 个 图 块 ， 这 种 重建 
在 数学 上 被 称 为 “稀疏 性 ”(sparse) 。 Ul 


图 6-3 源 自 自然 图 像 的 独立 分 量 


分 析 滤 波 器 。 使 用 左 图 自然 场景 图 像 中 的 图 块 (12x12 像 素 ) 作为 
输入 ， 通 过 具有 144 个 输出 单元 的 独立 分 量 分 析 网 络 得 到 输出 。 右 图 中 产生 的 独立 分 量 与 在 初级 
它们 具有 局 部 性 和 定向 性 ， 


Wil" 


Components' of Natural Scenes Are Edge Filters," figure 4 


分 为 正 区 域 MAKR CR 
， 灰 色 区 域 代表 零点 。 只 需要 几 个 


。 左 图 来 源 : Michael Lewicki; 


滤波 器 就 可 以 表示 任何 给 定 的 图 块 ， 这 一 性 质 被 称 为 de 
右 图 来 源 : Bell and Sejnowski, “The amd 


6.1 
独立 分 量 分 析 是 如 何 工 作 的 


主 分 量 分 析 (PCA) 和 独立 分 量 分 析 (ICA) 之 间 的 比较 。 图 片 
中 的 圆 点 表示 两 个 麦克 风 分 别 在 垂直 和 水 平 轴 上 的 和 输出。 每 个 点 的 坐 
标 是 单个 时 间 点 记录 在 两 个 麦克 风 上 的 值 。PCA 是 一 种 非常 受 欢 迎 的 
无 监督 学 习 技 术 ， 它 挑选 出 将 两 个 信号 等 分 的 方向 ， 将 它们 的 混合 程 
度 最 大 化 ， 并 且 PCA 轴 始终 相互 垂直 。ICA 找 到 沿 点 的 方向 伸展 的 
轴 ， 来 表示 分 离 的 信号 ， 这 些 轴 可 能 不 是 垂直 的 。 


这 些 结果 证 实 了 20 世 纪 60 年 代 著 名 视觉 科学 家 霍 勒 斯 : 巴 洛 (Horace 
Barlow) 的 猜想 ， BB AEA AGE BPR EEE T A 
现 了 简单 细胞 。 一 个 图 像 通 常 包含 大 量 的 元 余 信息 ， 因 为 附近 的 像素 通 
常 具有 相似 的 值 (例如 天 空 的 像素 ) , 巴 洛 猜想 e E 
达 中 的 宛 余 ， 8] 简单 细胞 就 能 够 更 有 效 地 传输 图 像 中 的 信息 。 整 个 学 
界 花 了 50 年 的 时 间 ， 才 开发 出 数学 工具 来 证 实 他 的 直觉。 


安东尼 和 我 还 认为 ， 独 立 分 量 分 析 被 应 用 于 目 然 声 首 时 ， 独 立 分 量 
苹 具 有 不 同 频率 和 持续 时 间 的 时 域 滤波 占 ， 类 似 于 在 听觉 神经 系统 初期 
处 理 部 分 中 发 现 的 滤波 器 . 9] 这 使 得 我 们 相信 ， 在 试图 理解 感 观 信号 
征 如 何在 视觉 诺 层 最 早期 的 处 理 阶段 被 表征 这 一 基本 原则 的 道路 上 ， 我 
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子 空间 ， 就 可 以 在 视觉 皮层 中 建立 复杂 细胞 的 模型 。 [10] 


独立 分 量 分 析 网 络 包含 相同 数量 的 输入 和 输出 单元 ， 以 及 把 它们 完 
全 连接 起 来 的 一 组 权重 。 为 解决 言 源 分 离 问 题 ， 专 区 风 的 声音 通过 输入 
层 输入 ， 每 个 麦克 风 占 有 一 个 输入 单元 ， 而 独立 分 量 分 析 学 习 算 法 GR 
似 感 知 器 算法 ) 不 断 欠 代 修改 传递 到 输出 层 的 权重 ， 直 到 它们 收敛 。 但 
征 ， 不 同 于 感知 邵 这 种 监督 学 习 算 法 ， 独 立 分 量 分 析 是 一 种 无 监督 学 习 
算法 。 它 使 用 输出 单元 之 间 的 独立 性 度量 作为 代价 函数 ， 但 并 不 知道 输 
出 目标 应 该 是 什么 。 为 了 使 输出 尽 可 能 独立 ， 权 重 不 断 被 修改 ， 原 始 声 
源 就 被 完美 地 分 离开 来 ， 或 者 如 果 它 们 彼此 并 不 是 独立 的 ， 其 相关 性 也 
会 被 尽 可 能 地 去 除 掉 。 无 监督 学 习 可 以 在 许多 不 同类 型 的 数据 集中 发 现 
以 前 未 知 的 统计 结构 。 


将 独立 分 量 分 析 应 用 于 大 脑 


我 实验 室 里 的 其 他 人 将 安东尼 :贝尔 的 信息 最 大 化 独立 分 量 分 析 算 法 
应 用 于 大 脑 的 不 同类 型 的 记录 ， 由 此 引发 了 一 系列 的 顿悟 时 刻 。1924 
年 ， 汉 斯 - 伯 格 (Hans Berger) 从 头 度 上 记录 了 大 脑 的 第 一 个 电信 号 ， 被 
称 为 脑 电 图 。 神 经 科学 家 利用 这 些 复杂 的 振荡 信号 来 监听 我 们 不 断 变化 
的 大 脑 状态 ， 这 种 状态 随 我 们 的 警觉 性 和 感觉 运动 相互 作用 而 变化 。 头 
皮 上 一 个 电极 处 的 电信 号 接收 来 目 大 脑 皮 层 内 许多 不 同 来 源 的 输入 ， 也 
接收 肌肉 和 有 眼球 运动 品 声 的 输入 。 每 个 头皮 电极 接收 来 日 大 脑 中 相同 源 
组 的 混合 信和 号， 这 些 信 号 具有 不 同 的 振幅 ， 这 与 鸡尾酒 会 上 的 问题 如 出 
— ij o 

2090ER, MEHE Smt (Scott Makeig) ERER AA 
的 实验 室 里 的 研究 员 ， 他 使 用 独立 分 量 分 析 从 脑 电 图 记录 中 提取 了 大 脑 
皮层 中 的 几 十 个 偶 极 源 ， 以 及 它们 各 目的 时 间 过 程 ( 见 图 6-4) 。 偶 极 子 
苹 大 脑 信息 源 最 简单 的 模式 之 一 。 最 简单 的 是 由 单一 静电 电荷 产生 的 窗 


盖 整 个 头皮 的 均一 模式 。 第 二 简单 的 模式 是 由 电流 直线 移动 产生 的 偶 极 
子 模式 ， 发 生 在 皮层 锥 体 神经 元 中 。 把 偶 极 子 想象 成 一 个 箭头 ， 头 皮 上 
沿 箭头 的 方向 为 正 ， 沿 箭 尾 的 方向 为 负 。 该 模式 覆盖 了 整个 头 部 ， 这 就 
iiia ipd a E AEN Lor 
两 个 信息 源 立 分 量 分 析 
Se T em EN 
的 精度 被 抹 除 〈 图 6-4 中 的 IC 1 和 IC4) 。 自 那 时 起 ， 数 以 千 计 已 发 表 的 
论文 都 在 使 用 独立 分 量 分 析 方 法 分 析 脑 电 图 记录 ， 并 在 使 用 独立 分 量 分 
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图 6-4 独立 分 量 分 析 被 应 用 于 头皮 脑 电 图 记录 。 在 俯视 角度 的 头皮 绘图 (鼻子 朝 上 ) 中 ， 黑 点 的 


位 置 是 电极 ， 某 个 时 间 点 的 电压 以 微 伏 (uv) 为 单位 用 彩色 标注 。 左 侧 图 中 五 个 头皮 通道 显示 
波动 中 的 脑 电 图 信号 受到 了 来 自 皮 眼 和 肌肉 信和 号 的 噪声 污染 。 独 立 分 量 分 析 可 以 将 大 脑 成 分 与 只 


X 
Bea 
声 分 开 ， 如 右 图 所 示 (其 中 “IC” 代 表 “ 独 立 分 量 ”) 。IC1 是 基于 缓慢 时 间 过 程 的 肯 眼 运动 ， 此 时 
头皮 绘图 在 靠近 眼睛 的 地 方 数值 最 高 (红色 ) 。IC4 是 肌肉 运动 噪声 ， 可 以 看 到 高 频率 、 高 振幅 
的 噪声 和 头皮 图 上 的 局 部 源 。IC2 和 IC3 是 大 脑 信 息 源 ， 分 别 表 示 为 头皮 上 的 偶 极 模式 (Fie 
色 区 域 相 对 的 正 值 红色 区 域 ) ， 和 来 自 脑 电 图 所 记录 的 头皮 上 更 复杂 的 模式 (如 左边 头皮 绘图 所 
示 ) 。 图 片 来 源 : Tzyy-Ping Jung ° 


马丁 . 麦 基 沃 恩 (Martin McKeown) 当时 是 我 实验 室 的 一 名 博士 后 研 
究 员 ， 具 有 神经 学 背景 。 他 研究 出 了 如 何 翻 转 空间 和 了 时间， 将 独立 分 量 
分 析 应 用 于 fMRI 的 记录 中 ( 见 图 6-5) 。 H 基于 fMRI 的 脑 成 像 在 大 脑 
中 数 以 万 计 的 位 置 对 与 神经 活动 间接 相关 的 血 氧 水 平 进行 测量 。 在 图 6-5 
中 ， 独 立 分 量 分 析 信 息 源 是 与 其 他 信息 源 具 有 共同 时 间 进 程 ， 但 在 空间 
上 相互 独立 的 大 脑 区 域 。 空 间 域 的 稀 跑 性 意味 着 在 任何 给 定 的 时 间 ， 只 
有 少数 几 个 区 域 是 高 度 活 路 的。 


短期 与 任务 相关 


了 突然 活动 


FR 


图 6-5 独立 分 量 分 析 被 应 用 于 fMRI 数 据 。 每 个 分 量 由 一 个 大 脑 活动 图 和 一 个 时 间 过 程 组 成 。 这 里 


显示 了 几 种 不 同类 型 的 分 量 。 务 代表 了 持续 5 秒 钟 的 视觉 刺激 ， 由 与 任务 相关 的 分 E 
取 。 方 框 中 信和 号 的 时 间 进 程 约 为 一 分 钟 ， 任 务 台 


之 类 的 务 重复 了 四 次 ， 如 图 (a) 所 示 。 其 他 分 量 则 采集 了 
如 头 部 运动 之 类 的 噪声 。 区 
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Data during the Stroop Color-Naming Task," Proceedings of the National Academy of Sciences of the 
United States of America 95, no. 3 (1998): 806,figure 1 ° 


因为 独立 分 量 分 析 是 无 监督 的 ， 它 可 以 揭示 能 够 协同 工作 的 大 脑 区 
域 网 络 ， 并 能 够 扩充 试图 将 区 域 中 的 活动 与 感官 刺激 或 运动 反应 联系 起 
来 的 监督 技术 。 例 如 ， 独 立 分 量 分 析 已 被 用 于 揭示 来 自 受 试 者 的 fMRI 记 
录 中 的 多 个 静 息 状态 ， 这 些 受 试 者 只 是 被 要 求 在 扫描 仪 中 保持 不 动 。 
[12] 我 们 仍然 不 了 解 这 些 静 息 状态 意味 着 什么 ， 但 是 它们 可 以 代表 对 大 
脑 活 动 负责 的 一 部 分 大 脑 区 域 的 组 合 ， 例 如 我 们 在 做 白 日 梦 ， 被 一 件 烦 
心事 困扰 ， 或 是 正在 计划 晚餐 吃 什么 的 时 候 。 


最 大 独立 性 原则 与 稀 芷 编码 原则 有 关 。 尽 管 独立 分 量 分 析 揭 示 了 许 
多 独立 的 分 量 ， 但 只 需要 其 中 的 一 小 部 分 瓯 能 重建 自然 图 像 中 指定 的 网 
块 。 这 个 原理 也 适用 于 视觉 皮层 ， 视 觉 皮 层 的 细胞 数量 比 视网膜 的 输入 
细胞 多 100 倍 。 我 们 的 每 个 视网膜 都 有 100 万 个 神经 节 细 胞 ， 在 初级 视觉 
皮层 中 有 1 亿 个 神经 元 一 一 这 是 皮层 视觉 层级 中 的 第 一 层 。 视 网 膜 中 视觉 
言 号 的 基 屡 编码 ， 在 皮层 中 被 扩展 为 高 度 分 布 且 高 度 稀 芷 的 新 编 侣 。 将 
言 恩 扩展 到 更 高 维度 空间 的 方法 也 被 应 用 到 其 他 的 编码 方案 中 ， 其 中 包 
括 在 听觉 皮层 和 嗅觉 皮层 中 发 现 的 编码 。 一 类 被 称 为 “压缩 感知 算 
iX" (compressed sensing algorithms) 的 新 算法 将 稀疏 性 原理 进行 了 泛 化 
处 理 ， 用 来 提高 存储 和 分 析 复杂 数据 集 的 效率 。 [13] 


什么 在 操控 我 们 的 言行 


独立 分 量 分 析 的 故事 说 明了 技术 在 科学 和 工程 领域 取得 新 发 现 中 的 
重要 性 。 我 们 通常 将 技术 看 作 测量 设备 ， 比 如 显微镜 和 放大 器 。 但 算法 
也 是 技术 ， 它 们 能 够 利用 旧 仪 器 获得 的 数据 得 出 新 的 发 现 。 脑 电 图 技术 
已 经 存在 了 将 近 100 年 ， 但 是 如 果 没 有 独立 分 量 分 析 ， 就 无 法 确定 潜在 的 
大 脑 信息 源 ， 大 脑 本 身 就 是 一 个 环 环 相 扣 的 算法 体系 ， 如 果 大 脑 的 某 些 
部 分 发 现 了 实施 独立 分 量 分 析 的 方法 ， 我 并 不 会 对 此 感到 惊讶 。 DH 


20 世 纪 90 年 代 ， 在 为 神经 元 网 络 开发 新 的 学 习 算法 的 过 程 中 ， 也 诈 
生 了 许多 其 他 的 发 现 ， 其 中 很 多 (如 独立 分 量 分 析 ) 现在 都 成 了 机 器 学 
习 中 的 数学 工具 。 这 些 算法 被 嵌入 许多 常用 的 设备 中 ， 不 过 没有 一 个 标 
明了 “内 含 神经 网 络 ”。 拿 耳机 或 手机 来 举 个 例子 。Te-Won Lee 和 Tzyy- 
Ping Jung 曾 经 是 我 实验 室 的 博士 后 研究 员 ， 他 们 后 来 创立 了 一 家 名 
为 “softMax” 的 公司 ， 在 带 有 两 个 麦克 风 的 蓝牙 耳机 中 应 用 1CA 来 消除 背 
景 噪声 。 这 样 的 设计 能 够 让 戴 耳 机 的 人 在 嘲 杂 的 餐厅 或 体育 赛事 中 听 到 
别人 说 话 。2007 年 ，SoftMax 被 高 通 收购 (高 通 为 许多 品牌 的 手机 设计 芯 
片 ) 。 而 如 今 ， 类 似 独立 分 量 分 析 的 解决 方案 也 已 嵌入 10 亿 部 手机 中 。 
如 果 你 能 从 运行 独立 分 量 分 析 的 每 部 手机 上 分 到 一 分 钱 ， 那 你 现在 就 是 
个 千 万 富翁 了 。 


安东尼 :贝尔 多 年 来 一 直 对 一 个 更 加 殊 手 的 问题 感 兴趣 。 作 为 人 类 ， 
我 们 的 体内 有 许多 网 络 ， 信 息 从 一 个 网 络 层 到 为 一 个 网 络 层 ， 从 分 子 到 
突 触 ， 到 神经 元 ， 到 神经 群 ， 直 到 形成 决策 ， 所 有 这 些 都 可 以 用 物理 学 
和 生物 化 学 的 法 则 来 解释 ( 见 图 4-4) 。 但 我 们 都 有 这 样 的 感受 ， 是 我 们 
目 己 ， 而 非 物 理 或 生物 化 学 反应 ， 在 操控 我 们 的 一 言 一 行 。 我 们 的 大 脑 
神经 群 中 出 现 的 内 部 活动 如 何 引 导 我 们 做 出 决定 ， 例 如 阅读 这 本 书 或 者 
打 网 球 ， 一 直 是 一 个 谜 。 这 些 远 远 低 于 我 们 意识 水 平 的 决定 ， 在 某 种 程 
度 上 是 由 神经 元 通过 基于 分 子 机 制 的 经 验 形 成 的 突 触 相互 作用 形成 的 。 
但 从 我 们 人 类 的 视角 来 看 ， 是 我 们 的 决定 导致 了 所 有 这 些 事件 在 我 们 的 
脑 中 发 生 : 内 省 行为 告诉 我 们 ， 因 有 果 关 系 中 的 因 和 果 ， 似 乎 与 物理 和 生 
物化 学 领域 中 的 因 和 采 相 反 。 如 何 调 和 这 两 个 观点 ， 有 是 一 个 深刻 的 科学 
问题 o [15] 
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生命 的 基底 。 这 个 想法 是 ， 当 “神经 机 制 ” (nerualschemes) 放松 到 足够 的 程度 时 ， 体 内 广泛 分 布 
的 原子 网 络 会 出 现 连贯 的 信息 ， 决 定 就 是 这 样 产生 的 。 
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在 20 世 纪 80 年 代 ， 疝 在 罗切斯特 大 学 的 计算 机 科学 家 杰 罗 姆 . 费 尔 德 
= (Jerome Feldman) 采用 了 联结 主义 (connectionist) 网 络 的 方式 来 研 
究 人 工 智能 。 杰 有 罗 姆 几乎 没 说 错过 什么 话 ， 他 曾经 指出 ， 人 工 智能 中 使 
用 的 算法 在 运行 了 数 十 亿 个 步骤 之 后 ， 却 常常 得 不 到 一 个 正确 的 结论 ， 
而 大 脑 只 需要 经 历 大 约 100 个 步骤 ， 通 常 就 会 得 出 一 个 正确 的 结论 。 Ll 
这 个 “100 步 法 则 ”当时 在 人 工 智能 研究 人 员 中 并 不 像 现在 那样 受 欢 迎 ， 但 
少数 人 ， 其 中 最 著名 的 是 卡 内 基 - 梅 隆 大 学 的 艾 伦 : 纽 维尔 ， 的 确 已 经 开 
始 把 它 作 为 一 种 约束 。 


有 一 次 我 被 困 在 了 纽约 州 的 罗切斯特 机 场 ， 杰 罗 姆 好 心 留宿 了 我 一 
晚 。 那 天 ， 我 参观 完 位 于 斯 克 内 克 塔 迪 的 通用 电气 研究 实验 室 ， 准 备 返 
回 巴 尔 的 摩 ， 在 回去 的 飞机 上 ， 听 到 飞行 员 通知 我 们 罗切斯特 的 天 气 状 
况 。 我 这 才 发 现 坐 错 了 航班 。 落 地 后 ， 我 预订 了 飞 往 巴 尔 的 摩 的 最 早 航 
班 ， 但 也 要 等 到 第 二 天 了 。 我 碰巧 遇见 了 杰 罗 姆 ， 他 刚 参 加 完 在 华盛顿 
特区 举办 的 一 次 委员 会 会 议 ， 正 准备 回 家 。 他 很 大 方 地 和 邀请 我 去 他 家 休 
息 一 个 晚上 。 杰 罗 姆 后 来 去 了 加 州 大 学 伯克利 分 校 ， 但 每 次 我 被 困 机 场 
时 ， 都 会 禁不住 想起 他 。 

杰 罗 姆 区 分 了 “ 遵 遇 ” 和 “整洁 ”的 联结 主义 模型 。 遵 遇 模 型 跟 杰 弗 里 , 
辛 顿 和 我 一 起 研究 过 的 模型 十 分 相似 ， 在 网 络 的 许多 单元 中 分 布 了 对 对 
象 和 概念 的 表征 。 而 杰 罗 姆 所 笃信 的 整洁 模型 ， 提 供 了 对 对 象 和 概念 严 
谨 的 计算 表征 ， 每 个 单元 上 只 有 一 个 标签 。 在 更 广泛 的 背景 下 ， 莉 明科 
学 的 模型 使 用 近似 方法 来 获得 定性 的 答案 ， 而 整洁 科学 的 模型 致力 于 找 
到 问题 的 确切 解决 方案 。 事 实 上 ， 人 工 智能 要 取得 进展 ， 需 要 同时 应 用 
这 两 种 方法 。 Ub 我 不 反对 立足 于 “通过 ” 的 方法 ， 但 我 会 尽 一 切 努 力 去 


给 出 一 个 更 “整洁 ?的 解释 ， 最 终 努 力 产 生 了 回报 : 杰 弗 里 和 我 后 来 都 因 
此 获得 了 巨大 的 成 就 。 
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想 要 获得 物理 学 博士 学 位 ， 你 必须 解决 一 个 问题 。 好 的 物理 学 家 应 
该 有 能 力 解决 任何 问题 ， 但 伟大 的 物理 学 家 知道 要 解决 什么 样 的 问题 。 
约 其 ' 霍 普 菲 尔 德 吏 是 一 位 伟大 的 物理 学 家 。 在 凝聚 仿 物 理学 领域 获得 了 
杰出 的 成 就 之 后 ， 他 的 兴趣 转向 了 生物 学 ， 特 别 是 关于 “分 子 校正 ”的 问 
题 。DNA (脱氧 核糖 核酸 ) 在 细胞 分 裂 过 程 中 被 复制 时 ， 错 误 不 可 避 
免 ， 必 须 纠 正 这 些 错 误 才 能 保证 子 细胞 遗传 信息 的 准确 度 。 霍 普 菲 尔 德 
想 出 了 一 个 聪明 的 办 法 ， 并 解释 了 采用 这 个 方法 纠 错 的 过 程 是 怎么 实现 
的 ， 尽 管 他 提出 的 这 种 方法 需要 消耗 能 量 ， 但 随后 的 实验 表明 ， 他 是 正 
确 的 。 在 生物 学 研究 领域 ， 做 出 任何 正确 的 解释 都 是 一 项 了 不 起 的 成 
WL ° 


霍 普 菲尔德 是 我 在 普林斯顿 大 学 读 博士 期 间 的 导师 ， 那 时 他 刚 对 宰 
经 科学 产生 兴趣 ( 见 图 7-1) 。 随 着 这 种 兴趣 变 得 日 益 浓 厚 ， 他 开始 兴致 
勃勃 地 给 我 讲述 ， 他 从 波士顿 神经 科学 研究 计划 (Neuroscience Research 
Program, NRP) 会 议 上 那些 神经 科学 研究 专家 的 演讲 里 所 学 到 的 东西 。 
我 发 现在 NPR 会 议 上 发 布 的 一 些小 型 研讨 会 会 议 文 章 非常 有 价值 ， 让 我 
了 解 了 当时 人 们 正在 研究 什么 问题 ， 以 及 产生 了 哪些 想法 。 我 现在 还 保 
留 着 一 份 由 传奇 神经 学 家 西 奥 多 . 霍 姆 斯 : 布 洛克 (Theodore Homes 
Bullock) 整理 的 关于 神经 编码 的 研讨 会 会 议 文献 。 西 奥 多 后 来 成 了 我 在 
DI KE IK Ka RA So PERS MBE. BaF (Adrian 
Horridge) GSNHKFLO RA ARAPERA o 3] 我 和 西 奥 
Z TERRA TR SS MTA PATE, FFA ERR SEH eE 
2008 年 发 表 的 最 后 一 篇 学 术 论 文 的 共同 作者 。 多 


与 前 层 单 元 建立 了 反馈 连接 ， 并 与 同 层 单元 间 存 在 循环 连接 的 神经 
网 络 ， 要 比 仅 具有 前 馈 连 接 的 神经 网 络 复杂 得 多 。 包 含 具 有 正 HA) 
权重 和 负 (抑制 ) 权重 的 任意 连接 单元 的 通用 网 络 对 学 界 提出 了 -一个 数 
学 难题 。 虽 然 芝 加 哥 大 学 的 杰克 : 考 恩 (Jack Cowan) 和 波士顿 大 学 的 斯 
傍 芬 . 格 罗斯 伯 格 (Stephen Grossberg) 在 20 世 纪 70 年 代 后 期 ， 通 过 证 明 
这 样 的 网 络 能 够 重 现 视觉 错觉 [3] 和 幻觉 LS] ， 在 该 领域 取得 了 一 些 进 
展 ,但 是 工程 师 发 现 这 种 网 络 并 不 外 g 解 决 复杂 的 计算 问题 。 


874 HR SESE IR REE pesce HEC I OLE BEAR IRI (照片 拍摄 于 1986 年 前 
后 ) 。 霍 普 菲 尔 德 在 20 世 纪 80 年 代 设计 了 一 个 以 他 自己 名 字 命名 的 神经 网 络 ， 开 启 了 深度 学 习 研 
究 的 天门， 这 一 设计 对 神经 网 络 研究 产生 了 开创 性 的 影响 。 图片 来 源 ， 约 翰 替 普 菲尔德 。 
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切 斯 特大 学 组 织 的 一 场 讨 论 会。 霍 普 菲 尔 德 告诉 我 们 ， 他 解决 了 一 种 强 


交互 网 络 的 收敛 问题 。 他 证 明了 一 种 独特 的 非 线 性 网 络 模型 ， 即 现在 
的 “ 霍 普 菲 尔 德 网 络 ”， 能 确保 收敛 到 一 种 叫 “ 吸 引子 ” (attractor) 的 稳定 
状态 〈 见 图 7-2， 方 框 7.1) UJ (高 度 非 线性 网 络 很 容易 发 生 振荡 ， 或 表 
现 出 更 多 的 混沌 行为 ) 。 此 外 ， 可 以 通过 选择 网 络 中 的 权重 ， 把 吸引 子 
状态 做 成 信息 内 容 。 如 此 一 来 ， 霍 普 菲 尔 德 网 络 束 可 以 被 用 来 实现 一 
种 “内 容 可 寻 址 存储 ”(content-addressable memory) 。 存 储 的 信息 可 以 只 
用 信息 内 容 的 一 部 分 作为 提取 输入 ， 让 神经 网 络 完 成 信息 填充 。 这 让 人 
联想 起 了 人 的 记忆 行为 。 如 果 我 们 看 到 某 个 熟人 的 脸 ， 怠 能 想起 那个 人 
的 名 字 和 先前 与 之 交谈 过 的 内 容 。 
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图 7-2 霍 普 菲尔德 网 络 的 能 量 场景 图 。 (AB) 网 络 的 状态 可 以 被 看 作 是 能 量 表面 上 的 一 

( 右 图 ) 每 次 更 新 可 以 将 状态 移动 到 其 一 个 局 部 能 量 最 小 值 ， 叫 作 “ 吸 引子 状态 ”。 RN 
A. Krogh, J. Hertz, and R.G. Palmer, Introduction to the Theory of Neural Computation Redwood City 
CA: Addison-Wesley, 1991, left:figure 2.6; right: figure 2.2 ° 


霍 普 菲 尔 德 网 络 的 重大 突破 性 在 于 ， 它 能 在 数学 上 保证 收敛 。 研 究 
人 员 曾 认为 要 分 析 高 度 非 线性 网 络 的 一 般 情况 是 不 可 能 的 。 当 网 络 中 的 
所 有 单元 被 同时 更 新 的 时 候 ， 所 引发 的 动态 情况 非常 复杂 ， 没 有 办 法 保 
证 收敛 。 [8] 但 是 霍 普 菲 尔 德 网 络 展示 出 ， 当 网 络 中 单元 的 更 新 是 顺序 
进行 的 时 候 ， 一 种 单元 组 彼此 双向 连接 并 且 权 重 相同 的 特殊 对 称 网 络 ， 
是 可 解 ， 并 且 最 终 是 能 够 收敛 的 。 


越 来 越 多 的 证 据 表 明 ， 海 马 体 〈 保 存 关 于 特殊 事件 和 独特 对 象 长 期 
D 忆 的 大 脑 关 键 区 域 ) 中 的 神经 网 络 存在 像 霍 普 菲 尔 德 网 络 中 的 那 种 吸 


引子 状态 。 [9] oR PERSE i RE AR, (TEE TO TEE 
马 体 上 观察 到 的 行为 十 分 相似 。20 世 纪 80 年 代 ， 许 多 物理 学 家 都 曾 利用 
霍 普 菲尔德 网 络 实现 了 由 物理 学 到 神经 科学 的 跨越 。 使 用 理论 物理 的 复 
杂工 具 来 分 析 神 经 网 络 和 学 习 算 法 的 过 程 中 ,诞生 了 很 多 惊人 的 发 现 。 
物理 、 计 算 和 学 习 在 神经 科学 理论 领域 深刻 地 联系 在 一 起 ， 这 一 结合 成 
功 地 实现 了 对 大 脑 功能 的 诠释 。 

约翰 . 霍 普 菲尔德 和 当时 在 贝尔 实验 室 的 大 卫 : 汤 克 (David Tank) , 
随后 又 展示 了 一 种 霍 普 菲尔德 网 络 的 变 体 ， 其 中 的 单元 可 以 拥有 0 到 1 之 
间 的 连续 值 ， [10] 能 够 很 好 地 解决 优化 问题 ， 例 如 “旅行 商 问 
题 ” (traveling salesman problem) ， 该 问题 旨 在 寻找 能 够 访问 多 个 城市 的 
最 短路 径 ， 每 个 城市 仅 访问 一 次 。 LL 这 是 一 个 计算 机 科学 领域 众 所 周 
知 的 难题 。 网 络 的 能 量 画 数 包含 了 路 径 的 长 度 ， 限 制 是 每 个 城市 仅 能 访 
问 一 次 。 经 过 初始 状态 ， 霍 普 菲 尔 德 和 汤 克 的 网 络 能 最 终 收 剑 到 一 个 最 
小 能 量 状 态 ， 表 明 找 到 了 一 条 较 好 的 路 径 ， 虽 然 不 一 定 是 最 佳 路 径 。 


局 部 最 小 值 与 全 局 最 小 值 


达 纳 : 巴 拉 德 (Dana Ballard) 在 1982 年 与 区 里 斯 托 弗 :布朗 
(Christopher Brown) 一 起 撰写 了 一 本 关于 计算 机 视觉 的 经 典 著作 ， U2! 
他 也 参加 了 1983 年 的 研讨 会 。 邓 顿 和 我 当时 正在 与 巴 拉 德 一 起 为 《 目 
然 》 杂 志 撰 写 一 篇 关于 图 像 分 析 新 方法 的 综述 。1[13] 该 文章 的 核心 想法 
是 ， 用 网 络 模型 中 的 和 点 表示 图 像 中 的 特征 ， 网 络 中 的 连接 实现 了 特征 
间 的 约束 条 件 ， 互 相 兼 容 的 节点 具有 积极 的 相互 作用 ， 而 不 兼容 的 节操 
则 具有 消极 的 相互 作用 。 在 视 沉 中， 必须 找到 满足 所 有 约束 条 件 的 所 有 
特征 的 和 谐 表 达 。 
霍 普 非 尔 德 网 络 能 够 解决 这 种 约束 满足 问题 吗 ? 能 量 函 数 可 以 用 来 
衡量 网 络 满足 所 有 约束 的 程度 (见方 框 7.1) 。 视 党 问题 需要 一 个 最 佳 解 
决 方案 ， 一 个 全 局 能 量 最 小 值 ， 但 是 霍 普 菲 尔 德 网 络 的 工作 原理 决定 了 


它 仅 能 提供 局 部 最 小 值 。 科学》 杂志 上 的 一 篇 文章 让 我 深 受 启发， 其 
作者 斯 科 特 : 柯 克 帕 特 里 克 (Scott Kirkpatrick) 当时 在 位 于 纽约 约克 敦 海 
vx (Yorktown Heights) 的 IBM 托 马 斯 : 沃 森 研究 中 心 (Thomas J. Watson 
Research Center) 工作 。 [14] 柯 克 帕特里克 使 用 了 一 种 叫 作 “ 模 拟 退 
kK” (simulated annealing) 的 算法 来 解决 局 部 最 小 值 问 题 。 假 设 你 想 把 一 
堆 电 子 元 件 装 到 两 块 电路 板 上 ， 怎 么 放置 这 些 元 件 可 以 使 连接 元 件 的 接 
线 数量 最 少 呢 ? 

较 差 的 解决 方案 就 是 ， 先 随机 安放 元 件 ， 然 后 每 次 移动 一 个 元 件 ， 
直到 找到 用 线 最 少 的 排 布 方案 。 因 为 当 移动 任何 一 个 元 件 都 无 法 减少 用 
线 时 ， 很 容易 陷入 局 部 最 小 值 的 陷阱 。 逃 出 这 个 陷阱 的 一 种 方式 就 是 ， 
人 允许 随机 跳 到 一 种 用 线 更 长 的 放置 方式 。 这 种 跳跃 的 概率 ， 开 始 时 会 很 
大 ， 随 后 慢 慢 减 小 ， 直 至 变 成 零 。 如 有 果 这 种 概率 减 小 的 速度 足够 慢 ， 元 
件 的 最 终 排 布 方式 会 达到 接线 的 全 局 最 小 值 。 在 冶金 业 ， 这 种 做 法 叫 作 
退火 。 将 金属 加 热 并 慢 慢 冷却 ， 在 这 一 过 程 中 会 形成 缺陷 最 小 的 较 大 的 
品 体 结构 ， 这 些 缺陷 会 使 金属 过 脆 ， 或 出 现 袭 纹 。 
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递 输出 。 输 入 标记 为 xi ， 和 输出 标记 为 ?>j。 连接 的 强度 ， 或 者 说 单元 
之 间 的 权重 是 对 称 的 : wij =w ji“ 在 每 个 步骤 中 ， 其 中 一 个 单元 被 更 
狐 为 输入 值 的 总 和 ， 并 和 一 个 立 值 进行 比较 : WOR A ZA A 
值 ， 输 出 融 是 1， 否 则 输出 就 是 0。 霍 普 菲 尔 德 展示 了 这 种 网 络 存在 一 
个 能 量 画 数 ， 它 不 会 随 厦 网 络 中 单个 单元 的 逐次 更 新 而 增长 : 

E-Y Wij Xi Xj 


最 终 ， 霍 普 菲 尔 德 网 络 会 达到 “吸引 子 状态 ”， 即 所 有 单元 值 不 再 
变化 ， 能 量 方程 达到 局 部 最 小 值 。 这 种 状态 等 同 于 存储 好 的 记忆 ， 可 
以 通过 部 分 存储 好 的 状态 来 初始 化 网 络 ， 实 现 对 完整 记忆 的 恢复 。 这 
束 是 霍 普 菲 尔 德 网 络 实现 内 容 取 址 记忆 的 方法 。 所 存储 同 量 的 权重 可 
通过 赫 布 突 触 可 塑性 (Hebbian synaptic plasticity) 得 到 : 


Aw ij =O Xi Xj 


Aw jj 表示 权重 的 变化 ，a 表示 学 习 速 率 ，xi 表示 存储 的 同 量 。 


该 图 由 戴尔 : 希 斯 (Dale Heath) 绘制 。 
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在 霍 普 菲尔德 网 络 中 ， 模 拟 退火 相当 于 对 更 新 进行 “加 热 ”， 这 样 能 
量 束 能 在 能 量 表面 自由 上 下 。 因 为 单元 在 高 温 下 可 以 随机 反 转 ， 如 果 温 
度 未 渐 降 低 ， 霍 普 非 尔 德 网 络 很 有 可 能 在 温度 为 零 时 收 钱 到 能 量 最 低 状 
态 。 在 实际 操作 中 ， 模 拟 会 在 常温 条 件 下 让 网 络 达到 平衡 状态 ， 这 样 网 
络 束 可 以 访问 周围 的 若干 状态 ， 并 且 在 一 个 更 广阔 的 范围 内 搜寻 可 能 的 
管 案 。 

例如 ， 图 7-3 中 剪影 的 图 案 是 存在 争议 的 。 这 取决 于 你 关注 的 是 哪个 
部 分 ， 你 可 能 会 看 到 一 个 花瓶 或 两 张 人 出 脸 ， 但 不 会 同时 看 到 这 两 种 图 
案 。 问 题 的 关键 在 于 ， 你 将 哪 部 分 看 成 图 形 ， 哪 部 分 看 成 背景 。 我 们 设 
计 了 一 个 玻 尔 兹 曼 机 网 络 来 模仿 这 个 基于 图 形 一 背景 的 决定 (figure- 
ground decision) , [15] 用 一 些 单元 代表 被 关注 的 图 形 ， 其 他 单元 代表 
图 形 的 边缘 。 我 们 已 经 知道 ， 视 觉 度 层 中 存在 由 边缘 激活 的 简单 细胞 ， 
但 是 图 形 可 能 位 于 边缘 的 任意 一 侧 。 我 们 的 玻 尔 兹 曼 机 网 络 通过 两 组 边 
缘 单 元 实现 了 图 形 选 择 ， 每 组 单元 只 文 持 一 侧 的 图 形 。 这 类 神经 元 随后 
在 视觉 皮层 中 被 发 现 ， 被 称 为 “边界 归属 细胞 ” (border-ownerships 
cells) 。 [16] 


玻 尔 效 曼 网 络 中 的 约束 可 以 通过 手动 设置 权重 来 实现 (图 7-4) 。 在 
图 形 单元 之 间 存 在 兴奋 连接 ， 而 在 边缘 单元 之 间 存 在 着 抑制 连接 。 边 缘 
单元 与 它们 所 指 癌 的 图 形 单元 之 间 存 在 兴奋 性 连接 ， 能 够 支持 图 形 单 
元 ， 并 与 相 背 离 的 图 形 单元 间 形 成 抑制 性 连接 。 UZ) 注意 力 是 通过 对 一 
些 图 形 单位 产生 偏 倚 (bias) 而 实现 的 。 当 玻 尔 兹 曼 网 络 对 单元 使 用 霍 普 
菲尔德 更 新 规则 时 ， 它 会 落 入 局 部 能 量 最 小 值 ， 这 些 局 部 能 量 最 小 值 在 
本 地 图 块 中 一 致 ， 但 在 全 局 上 并 不 一 致 。 当 更 新 中 加 入 了 噪声 时 ， 玻 尔 


兹 受 网 络 可 以 跳出 局 部 最 小 值 ， 并 且 通 过 缓慢 退火 降低 噪声 温度 ， 这 样 
一 来 网 络 的 能 量 函 数 就 可 能 得 到 全 局 一 致 的 能 量 最 小 值 ( 见 图 7-4) 。 由 
于 更 新 是 异步 和 独立 的 ， 因 此 网 络 可 以 由 具有 数 百 万 个 单元 并 行 工作 的 
计算 机 来 实现 ， 并 且 可 以 比 一 次 按 顺序 执行 一 个 操作 的 数 子 计算 机 更 快 
地 收敛 到 解决 方案 中 。 


图 像 
图 7-3 模 楼 两 可 的 图 形 一 背景 问题 。 (AR) 如 果 关 注 黑 色 图 形 ， 你 看 到 的 是 一 个 有 白色 背景 的 
花瓶 。 如 果 关 注 的 是 白色 背景 ， 那 你 会 看 到 两 张 互相 注视 的 脸 。 你 可 以 来 回 变换 视角 ， 但 是 做 不 


"ras 图 形 一 背景 网 络 模型 。 两 种 单元 分 别 代表 了 物体 的 边 绿 (X 
段 ) ， 和 某 个 像素 是 否 属于 图 形 或 者 背景 TTR) 。 图 像 输入 方向 为 从 下 到 上 ， 注 意 力 输入 方向 
是 从 上 到 下 。 其 中 ， 当 某 个 区 域 应 该 被 当 作 图 形 而 进 行 填充 时 ， 注 意 力 就 是 针对 该 区 域 所 产生 的 
偏 傈 。 图 片 来 源 : P. K. Kienker, T. J. Sejnowski, G. E. Hinton, and L. E.Schumacher, “Separating 
Figure from Ground with a Parallel Network,"Perception 15 (1986): 197—216, left: figure1; right: figure 
2 o 
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图 7-4 正在 分 离 图 形 与 背景 的 玻 尔 效 曼 机 。 (ER) 


三 角形 为 标识 轮廓 的 边界 单元 ， 连 接 单 元 的 正 负 属性 


网 络 


图 形 。 (FA) (a) 关注 于 图 形 C 内 部 区 域 的 网 络 万 


元 开始 聚拢 ， 同 时， 注意 区 以 外 或 没有 边缘 输入 的 让 


的 


} 


边缘 上 
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的 方形 单元 为 标识 图 形 的 图 形 单元 ， 
也 被 一 同 标 出 。 边 缘 单元 可 以 指向 或 者 表 离 


意图 。 温 度 81 刚 开始 很 高 ， 单 元 在 开启 和 
关闭 状态 之 间 不 停 变换 。 (b) 随 着 温度 下 降 ， 在 指向 内 间 


元 的 文 持 下 ，C 内 部 的 图 形 单 


台 消失 。 


(c) 当 温度 为 零 时 ， 六 


FE 意 区 


的 图 案 被 填 满 。 (d) 如 果 注 意 区 移 向 外 围 ， 重 复 该 过 程 ， 则 外 部 区 域 会 被 填充 。 图 片 来 源 ，P. 
K. Kienker, T. J. Sejnowski, G. E. Hinton, and L. E. Schumacher, *Separating Figure from Ground with a 
Parallel Network,"Perception 15 (1986): 197—216, below: figure 6; above: figure 3 ° 


那个 时 候 ， 我 已 经 在 哈佛 医学 院 的 斯 蒂 芬 - 库 夫 勒 那 里 完成 了 博士 后 
研究 ， 在 约 输 . 霍 普 金 斯 大 学 (位 于 巴尔 的 摩 市 ) 生物 物理 系 开始 了 我 的 
第 一 份 工作 ， 杰 弗 里 - 痊 顿 在 卡 内 基 - 梅 隆 大 学 (位 于 匹兹堡 市 ) 计算 机 
科学 系 担任 教 职 ， 在 那里 他 很 幸运 地 得 到 了 艾 伦 : 纽 维尔 的 支持 ， 艾 伦 对 
人 工 智能 的 新 方向 持 十 分 开放 的 态度 。 匹 兹 堡 和 巴尔 的 摩 离 得 很 近 ， 所 
以 杰 弗 里 和 我 可 以 在 周末 见面 。 我 们 将 这 一 霍 普 菲 尔 德 网 络 的 新 版 本 称 
为 “ 玻 尔 兹 曼 机 "， 以 致敬 19 世 纪 的 物理 学 家 路 德 维 希 . 玻 尔 效 曼 (Ludwig 
Boltzmann) ， 他 是 统计 力学 的 创始 人 。 我 们 的 波动 性 神经 网 络 模型 就 是 
借助 统计 力学 的 工具 进行 分 析 的 ， 之 后 我 们 很 快 就 发 现 ， 该 模型 也 是 一 
个 强大 的 学 习 机 器 。 

在 恒定 的 “温度 "下 ， 玻 尔 兹 曼 机 会 达到 平衡 。 在 平衡 状态 下 会 发 生 
一 些 神奇 的 事情 ， 多 层 神经 网 络 学 习 的 大 门将 被 打开 。 而 此 前 ， 每 个 人 
都 认为 它 的 存在 有 弊 无 利 。 有 一 天 ， 杰 弗 里 给 我 打 电 话 ， 说 他 刚刚 从 玻 
尔 兹 曼 机 衍生 出 一 个 简单 的 学 习 算法 。 该 算法 的 目标 是 执行 从 输入 单元 
到 输出 单元 的 映射 。 但 与 感知 器 不 同 的 是 ， 玻 尔 兹 曼 机 在 输入 和 输出 层 
之 间 也 存在 一 些 单元 ， 我 们 称 之 为 隐藏 单元 ”( 见 方 框 7.2) 。 通 过 对 其 
呈现 输入 一 输出 对 和 应 用 学 习 算 法 ， 玻 尔 兹 曼 网 络 学 会 了 实现 目标 映 
射 。 但 是 ， 其 目标 不 仅仅 是 要 记 住 输入 一 输出 对 ， 也 要 将 没有 被 用 于 训 
练 网 络 的 新 输入 正确 地 进行 分 类 。 此 外 ， 玻 尔 兹 曼 机 也 在 通过 其 持续 不 
断 的 波动 状态 来 学 习 概 率 分 布 一 对 于 一 个 给 定 的 输入 模式 ， 每 个 输出 
状态 的 访问 频率 如 何 一 这 就 使 其 具备 了 生成 性 ， 学 习 之 后 ， 它 可 以 通 
过 钳制 每 个 输出 类 别 来 生成 新 的 输入 样本 。 
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令 人 惊讶 的 是 ， 玻 尔 兹 曼 机 学 习 算 法 在 神经 科学 领域 有 着 悠久 的 历 
史 ， 可 以 追溯 到 心理 学 家 唐纳德 : 赫 布 (Donald O. Hebb) 博士 ， 他 在 
《行为 的 组 织 》 一 书 中 假定 ， 帮 两 个 神经 元 同时 被 激发 ， 它 们 之 间 的 突 
触 连接 应 该 会 增强 ; 
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二 进 制 玻 尔 兹 曼 单 元 
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的 ， 并 且 其 中 的 二 进 制 单元 i 的 状态 值 si ， 会 按照 上 图 中 的 Sigmoid 画 
XX (sigmoid function) 提供 的 一 个 概率 ， 逐 个 被 更 新 成 1 或 0。 
Sigmoid 函 数 的 输入 值 AE 通过 温度 T 来 进行 比例 缩放 。 输 入 层 和 输出 
层 都 是 “可 见 的 "， 也 就 是 说 它们 会 与 外 界 进 行 交 互 。“ 隐 成 单元 ”代表 


了 能 够 影响 可 见 层 单 元 的 带 有 内 部 目 由 度 的 特征 。 玻 尔 效 曼 机 学 习 算 
法 有 两 个 阶段 : 在 “清醒 ”阶段 ， 输 入 和 输出 会 被 钳制 (clamped) 
[19] ， 当 网 络 达到 平衡 状态 后 ， 每 对 单元 状态 值 之 间 的 相关 系数 会 被 
计算 出 来 ， 在“ 睡眠” 阶段， 输入 和 输出 钳制 被 解除 ， 每 对 单元 状态 值 
之 固 的 相关 性 会 被 重新 计算 ， 其 中 的 权重 会 被 逐步 更 新 : 


Aw ;: =E (<S ; S; »wake -<5 ; S; >sleep 
ij 1°) 1*5] 


让 我 们 假设 反射 活动 《或 “追踪 痕迹 ”) 的 持续 或 重复 ， 趋 向 于 引 
起 持续 的 细胞 变化 来 增加 其 稳定 性 。 当 细胞 A 的 轴 突 接近 细胞 B， 并 
且 反 复 或 持续 地 参与 激发 细胞 B 时 ， 其 中 一 个 或 者 两 个 细胞 中 都 会 发 
生 某 种 生长 过 程 或 代谢 变化 ，A (作为 激发 B 的 细胞 之 一 ) 的 效率 会 
增加 。 [20] 


这 可 能 是 整个 神经 科学 领域 中 最 有 名 的 预言 。 后 来 在 海马 体 中 发 现 
了 赫 布 突 触 可 塑性 (Hebbian Synaptic Plasticity) ， 海 马 体 是 大 脑 中 控制 
长 期 记忆 的 重要 组 成 部 分 。 当 一 个 海马 锥 体 细胞 接收 强 输 入 信号 ， 同 时 
该 神经 元 也 发 生 了 放电 反应 时 ， 突 触 的 连接 强度 束 会 增加 。 随 后 的 实验 
表明 ， 这 种 强化 是 基于 突 触 的 发 射 硕 释放 与 受 体 神经 元 中 电压 升 高 的 结 
合 。 此 外 ， 这 种 结合 的 发 生 被 一 种 特殊 的 受 体 ， 即 NMDA (N- 甲 基 -D- 
XA SANE) 合 氨 酸 受 体 所 识别 。 它 触发 了 长 时 程 增 强 (long-term 
potentiation， 人 简称 LTP) ， 其 起 效 迅 速 而 且 持 续 时 间 长 ， 是 一 种 很 好 的 长 
期 记忆 基质 。 与 玻 尔 北 曼 机 学 习 算 法 (见方 框 7.2) 十 分 相似 ， 突 触 上 的 
赫 布 可 塑性 是 由 输入 和 输出 之 间 的 一 致 性 决定 的 。 

更 令 人 惊讶 的 是 ， 玻 尔 兹 曼 机 需要 一 定 的 “睡眠 "才能 学 习 。 它 的 学 
习 算 法 有 两 个 阶段 。 在 第 一 阶段 ， 即 “清醒 ?阶段 ， 随 着 输入 和 输出 模式 
被 钳制 到 期 望 的 映射 ， 网 络 中 的 单元 被 多 次 更 新 以 达到 平衡 ， 每 对 单元 
都 为 1 的 次 数 所 占 的 百分比 会 被 记录 下 来 。 在 第 二 阶段 ， 即 “睡眠 ”阶段 ， 
输入 和 输出 单元 被 释放 ， 每 对 单元 在 自由 运行 状态 中 都 为 1 的 次 数 百 分 比 
也 被 记录 下 来 。 然 后 ， 每 个 连接 强度 按照 清醒 和 睡眠 阶段 一 致 率 之 间 的 


差异 ， 按 比例 进行 更 新 〈 见 方 框 7.2) 。 睡 眠 阶段 的 计算 是 为 了 确定 钳制 
的 相关 性 中 哪个 部 分 是 由 外 部 原因 造成 的 。 在 不 去 除 内 部 产生 的 相关 性 
的 情况 下 ， 该 网 络 会 加 强 内 部 活动 模式 ， 并 学 习 忽略 外 部 的 影响 ， 这 征 
二 联 性 精神 病 (folie a deu) [21] 的 网 络 版 本 。 有 趣 的 是 ， 极 度 的 睡眠 
剥 村 会 导致 人 体 处 于 逐 想 的 状态 ， 在 没有 窗户 和 和 恒定 照明 的 医院 重症 监 
护 病房 中 ， 这 样 的 问题 并 不 罕见 。 精 神 分 裂 证 患者 通 季 患 有 睡眠 障碍 ， 
可 能 导致 他 们 患 上 受 想 症 。 这 使 我 们 确信 ， 我 们 正 沿 着 正确 的 方向 理解 
大 脑 的 工作 原理 。 


学 习 识别 镜像 对 称 


玻 尔 兹 曼 机 可 以 解决 ， 但 感知 器 却 不 能 解决 的 一 个 问题 ， 就 是 如 何 
学 习 镜像 对 称 。 [22] 人 体 是 沿 着 一 个 垂直 的 轴 两 边 对 称 的 。 我 们 可 以 用 
这 个 对 称 轴 生 成 大 量 随机 图 案 ， 如 图 7-5 所 示 ， 也 可 以 采用 水 平 轴 和 对 角 
轴 对 称 。 在 我 们 的 玻 尔 效 曼 机 网 络 中 ， 按 照 10x10 排 布 的 若干 块 二 进 制 输 
入 被 投影 到 16 个 隐藏 单元 中 ， 然 后 再 投影 到 3 个 输出 单元 ， 每 个 输出 单元 
对 应 3 个 可 能 的 对 称 轴 中 的 一 个 。 在 接受 了 6000 个 对 称 输入 模式 的 训练 
后 ， 玻 尔 兹 曼 机 对 全 新 输入 的 对 称 轴 进 行 分 类 的 成 功率 为 900%。 感 知 器 
得 到 的 结果 不 会 比 随机 猜测 的 结果 好 ， 因 为 单一 的 输入 并 不 包含 关于 模 
式 对 称 性 的 信息 ， 必 须 对 输入 对 之 间 的 相关 性 进行 考察 。 值 得 注意 的 
是 ， 人 类 观察 者 看 到 的 输入 阵列 与 玻 尔 兹 曼 机 所 看 到 的 并 不 一 致 ， 因 为 
玻 尔 兹 曼 机 的 每 个 隐藏 单元 都 从 整个 阵列 接收 输入 ， 并 不 遵循 任何 特定 
的 顺序 。 对 于 观察 者 来 说 ， 等 价 的 问题 是 要 随机 安排 阵列 中 输入 单元 的 
位 置 ， 这 会 使 阵列 在 观察 者 看 来 是 随机 的 ， 即 使 其 中 存在 隐藏 的 对 称 
性 。 
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图 7-5 对 称 的 随机 图 案 。 每 个 10x10 的 阵列 都 存在 垂直 、 水 平 或 对 角 方向 上 的 镜像 对 称 。 网 络 模型 
的 目标 是 学 习 如 何在 没有 参与 网 络 模型 训练 的 新 样本 中 依据 对 称 轴 进 行 分 类 。 图 片 来 源 : T.J. 
Sejnowski, P. K. Kienker,and G. E. Hinton, “Learning Symmetry Groups with Hidden Units: Beyond the 
Perceptron," Physica 22D(1986): 260- 275, figure 4 ° 


有 一 天 ， 我 正果 着 显示 器 ， 以 每 秒 两 次 的 速度 读 出 每 个 输入 模式 的 
对 称 性 。 当 时 我 在 约翰 科恩 (Neal 
Cohen) 也 在 观察 这 个 屏幕 ， 但 他 却 不 能 区 分 这 些 对 称 性 ， 除 非 兰 近 了 仔 
他 对 我 的 这 项 本 事 感 到 很 惊讶 。 e 
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而 不 需要 在 屏幕 上 四 处 对 比 查 看 。 尼 尔 和 我 设计 了 一 个 实验 ， 用 本 科 生 
作为 未 经 训练 的 考察 对 象 ， 观 察 他 们 在 这 一 任务 上 的 进展 。 [23] 开始 
时 ， 他 们 花 了 很 长 时 间 才 找 出 正确 的 对 称 性 ， 但 经 过 几 天 的 训练 以 后 ， 
他 们 的 速度 变 得 飞快 。 到 了 实验 后 期 ， 他 们 能 够 快速 、 轻 松 地 找到 对 称 


性 ， 甚 至 可 以 在 任务 过 程 中 与 我 们 进行 交谈 ， 得 到 的 答案 依然 准确 无 
误 。 这 是 非常 快速 的 感知 学 习 。 

我 在 约翰 .起 普 金 斯 大 学 教授 过 计算 生物 物理 学 ， 这 门 课程 吸引 了 很 
多 有 才华 的 学 生 和 研究 人 员 。 本 . 尤 哈 斯 (Ben Yuhas) 是 与 我 一 起 工作 的 
电子 工程 系 的 研究 生 ， 他 在 写作 博士 论文 期 间 ， 训 练 了 一 个 神经 网 络 来 
阅读 唇 语 。 (24) 人 的 嘴巴 在 运动 过 程 中 包含 了 声音 的 信息 。 尤 哈 斯 的 网 
络 将 嘴 部 的 图 像 转换 为 每 个 时 间 点 上 产生 声音 的 相应 频谱 。 这 一 技术 可 
以 辅助 处 理 有 噪声 的 声 谱 以 改善 语音 识别 。 他 的 研究 生 同 学 安 德 里 亚 斯 . 
安 德 里 欧 (Andreas Andreou) 是 希腊 族 塞浦路斯 人 ， 他 当时 正在 Barton 
Hall 大 楼 的 地 下 室 里 建造 模拟 超大 规模 集成 电路 心 片 (将 在 第 14 章 中 进 
行 介绍 ) 。 在 20 世 纪 80 年 代 ， 许 多 院 系 的 教师 对 竺 神经 网 络 鸭 态度 都 不 
太 友 善 ， 这 样 的 现象 在 很 多 机 构 中 都 非常 普遍 ， 但 这 并 不 能 阻止 尤 哈 斯 
或 安 德 里 欧 研究 的 脚步 。 事 实 上 ， 安 德里 欧 后 来 成 了 约 现 霍 普 金 斯 大 学 
的 正教 授 ， 并 合作 建立 了 约翰 : 霍 普 金 斯 大 学 语言 和 语 首 处 理 中 心 。 尤 哈 
斯 则 组 建 了 一 个 咨询 团队 ， 为 政府 和 企业 客户 提供 数据 科学 咨询 服务 。 


学 习 识 别 手写 数字 


最 近 ， 杰 弗 里 . 辛 顿 和 他 在 多 伦 多 大 学 的 学 生 们 训练 了 一 个 带 有 三 层 
隐藏 单元 的 玻 尔 效 曼 机 ， 能 够 对 手写 邮政 编码 进行 非常 准确 的 分 类 (UL 
图 7-6) 。 25) 由 于 玻 尔 兹 曼 网 络 具 有 反馈 和 前 馈 连 接 ， 因 此 可 以 反 向 
运行 网 络 ， 钳 制 其 中 一 个 输出 单元 ， 并 生成 与 钳制 输出 单元 相对 应 的 输 
入 模式 ( 见 图 7-7) 。 这 种 生成 性 网 络 能 捕获 训练 集 的 统计 结构 ， 而 它们 
生成 的 样本 也 会 继承 这 些 属性 。 就 好 像 这 些 网 络 进入 了 睡眠 状态 ， 网 络 
最 高 层 的 活动 在 输入 层 产 生 了 梦境 一 般 的 状态 序列 。 
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图 7-6 用 于 手写 数字 识别 和 生成 样本 的 多 层 玻 尔 兹 曼 机 。 图像 具 有 28x28 个 像素 ， 可 以 是 日 色 或 娠 
色 。 目 标 是 根据 10 个 输出 单位 (0-9) 对 数字 进行 分 类 。 图 片 来 源 : G.E. Hinton, “Learning 
Multiple Layers of Representation, "Trends in Cognitive Sciences 11(2007):428-434, figure 1。 
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图 7-7 由 经 过 训练 后 可 以 识别 手写 数字 的 多 层 玻 尔 兹 曼 机 生成 的 输入 层 图 案 。 每 一 行 都 是 通过 钳 
制 10 个 输出 单元 中 的 一 个 产生 的 〈 见 图 7-6) ， 并 且 输 入 层 在 RIZ Peter o 这些 数字 
都 没有 在 训练 集中 出 现 过 一 一 它们 是 被 训练 有 素 的 网 络 的 内 部 结构 “2] 想 ”出 来 的 。 图 片 来 源 ，G. 
E. Hinton, S. Osindero and Y. Teh, “ADeep Learning Algorithm for Deep Belief Nets”, Neural 
Computation 18(2006):1527-1554, figure 8° 
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尽管 神经 网 络 在 物理 学 和 工程 学 中 的 兴起 十 分 迅速 ， 但 传统 的 认 知 
科学 家 却 迟 迟 不 能 接受 它 作为 理解 记忆 和 语 言 处 理 的 形式 体系 。 除 了 拉 
荷 亚 的 并 行 分 布 处 理 (PDP) 研究 组 和 一 些 独立 的 研究 者 ， 符 号 处 理 仍 
然 是 业界 的 主流 方法 。 ee EA 

(Cognitive Science Society) 的 会 议 。 会 议 期 间 ， 人 研究 短期 记忆 和 意象 的 
心理 学 家 泽 农 . 派 利 夏 恩 (Zenon Pylyshyn) 表示 出 了 对 玻 尔 兹 曼 机 的 不 
悄 。 他 朝 讲台 上 泌 了 一 杯 水 ， 并 大 声 喊 道 :“ 这 不 是 计算 ! ”而 其 他 人 则 
认为 整个 领域 仅仅 是 在 搞 统计 罢了 。 但 杰 罗 姆 :莱特 文 (Jerome Lettvin) 
却 表 示 ， 他 真 的 非常 喜欢 我 们 正在 做 的 事情 。 莱 特 文 在 1959 年 与 温 贝 托 : 


马 托 拉 那 (Humberto Matourana) 、 沃 伦 : 麦 卡 洛克 (Warren McCulloch) 
AIK RE Vey (Walter Pitts) 一 起 撰写 了 经 典 的 论文 《青蛙 的 眼睛 告诉 
大 脑 什么 》 (What the Frog's Eye Tells the Frogs Brain) ° [26] 文中 给 出 
了 青蛙 视网膜 中 的 虫 类 探测 恬 神 经 元 对 小 黑 点 的 反应 最 为 强烈 的 证 据 ， 
这 是 一 个 在 系统 神经 科学 领域 极 具 影 响 力 的 想法 。 他 对 我 们 羽 玫 未 丰 的 
神经 网 络 模型 的 文 持 是 该 领域 早期 发 展 中 的 重要 一 环 。 


无 监督 学 习 和 皮层 发 育 


玻 尔 兹 曼 机 既 可 以 用 来 进行 监督 学 习 ， 即 输入 和 输出 都 被 钳制 ， 也 
可 以 用 于 无 监督 学 习 ， 即 只 有 输入 被 钳制 。 杰 弗 里 . 圣 顿 使 用 无 监督 的 版 
本 一 次 一 层 地 搭建 出 了 一 个 深度 玻 尔 兹 曼 机 。 [27] 从 连接 到 输入 单元 的 
一 层 隐 藏 单元 开始 BW 5 BR BY OR ZR = HL (restricted Boltzmann 
machine) , 7\36 BAR cM AGE EITI, KHER Lim cae 
更 容易 获得 〈 互 联网 上 有 数 十 亿 未 标记 的 图 像 和 录音 ) ， 可 以 使 学 习 进 
度 更 快 。 无 监督 学 习 的 第 一 步 是 从 数据 中 提取 所 有 数据 共有 的 统计 规 
律 ， 但 第 一 层 隐藏 单元 只 能 提取 简单 的 、 用 感知 器 也 可 以 表现 的 特征 。 
下 一 步 是 将 权重 固定 到 第 一 层 ， 并 在 上 面 添加 第 二 层 单元 。 更 多 的 无 监 
督 玻 尔 效 受 学 习 产生 了 更 复杂 的 一 组 特征 ， 可 以 不 断 重 复 这 一 过 程 来 创 
建 具 有 多 层 深 度 的 网 络 。 


因为 上 层 的 单元 包含 更 多 非 线性 的 低层 特征 组 合 ， 使 得 它们 可 以 作 
为 一 个 整体 ， 从 具体 的 特征 中 抽象 出 更 普遍 的 特征 。 因 此 ， 在 上 层 进行 
的 分 类 变 得 容易 得 多 ， 只 需要 更 少 的 训练 样本 就 能 在 更 高 的 计算 水 平 达 
到 收敛 。 尽 管 如 何 描述 这 种 解决 方案 背后 的 数学 原理 依然 有 待 商检 ， 但 
已经 有 新 的 几何 工具 开始 在 这 些 深度 网 络 中 饭 露 头角 了 。 [28] 皮层 似乎 
也 是 逐 层 生 长 的 。 在 视觉 系统 发 育 的 早期 阶段 ， 作 为 第 一 层 从 眼睛 接收 
输入 信号 的 神经 元 ， 初 级 视觉 皮层 中 的 神经 元 具有 很 高 的 可 塑性 ， 并 且 
很 容易 根据 视觉 输入 流 重新 建立 连接 ， 这 种 连接 在 关键 时 期 结束 后 消失 
(这 部 分 在 第 5 章 已 经 讨论 过 ) 。 大 脑 后 部 的 视觉 区 域 和 其 他 感官 流 的 层 


级 结构 最 先 发 育 成 熟 ， 靠 近 大 脑 前 部 的 皮层 区 域 则 需要 更 长 的 时 间 。 前 
额 时 皮层 ， 也 就 是 最 靠近 大 脑 前 端的 部 分 ， 直 到 成 年 早期 才 可 能 完全 发 
育成 熟 。 在 关键 期 ， 皮 层 区 域 的 连接 接受 神经 活动 影响 最 大 ， 这 些 层 肢 
的 关键 时 期 导致 了 皮层 的 逐渐 发 育 。 加 州 大 学 圣迭戈 分 校 的 认 知 科学 家 
WEES (Jeffrey Elman) 和 伊丽莎白 : 贝 次 (Elizabeth Bates) 跟 其 
他 同事 一 起 ， 针 对 皮层 的 逐渐 发 育 如 何 帮 助 儿童 通过 了 解 世界 而 获得 新 
能 力 ， 给 出 了 联结 主义 网 络 角 度 的 解释 。 【23] 这 一 工作 为 解释 我 们 漫长 
的 童年 如 何 使 人 类 成 为 最 善于 学 习 的 物种 ， 开 辟 了 一 个 新 的 研究 方向 ， 
同时 也 对 先前 围绕 菜 些 与 生 俱 来 的 行为 产生 的 论调 提供 了 新 的 视角 。 


ELJER (Steven Quartz) 曾经 是 我 实验 室 里 的 博士 后 研究 
员 ， 现 在 在 加 州 理 工学 院 做 教员 。 我 们 在 合作 发 表 的 《骗子 、 爱 人 和 英 
li) (Liars, Lovers and Heroes) 1301 一 文中 曾经 写 道 ， 在 儿童 和 青少年 
时 期 的 大 脑 发 育 过 程 中 ， 经 验 可 以 深刻 地 影响 神经 元 的 基因 表达 ， 从 而 
改变 负责 行为 的 神经 回路 。 基 因 的 差异 性 以 及 环境 影响 之 间 的 交互 作 
用 ， 让 我 们 能 够 从 新 的 角度 认识 大 脑 发 育 的 复杂 性 。 这 一 活跃 的 研究 领 
域 超越 了 先天 与 后 天 的 辩论 ， 并 从 文化 生物 学 的 角度 对 其 进行 了 重新 定 
义 。 我 们 的 生物 特性 不 仅 促成 了 人 类 文明 的 诞生 ， 也 反 过 来 被 人 类 文明 
影响 着 。 [31 最 近 的 一 项 发 现 为 这 个 故事 续 写 了 新 篇 章 ， 当 神经 元 之 间 
突 触 的 形成 在 早期 发 育 过 程 中 迅速 增加 时 ， 神 经 元 内 部 的 DNA 在 诞生 后 
通过 一 种 甲 基 化 的 形式 进行 表 观 遗传 修饰 ， 这 种 甲 基 化 调节 基因 的 表达 
是 大 脑 所 独 有 的 。 [32] 这 种 表 观 遗传 修饰 可 将 我 和 史 蒂 文 之 前 设想 的 经 
验 与 基因 之 间 建 立 起 某 种 连接 。 


到 了 20 世 纪 90 年 代 ， 神 经 网 络 单 命 开始 如 火 如 茶 地 进行 。 认 知 神经 
科学 领域 正在 扩展 ， 计 算 机 变 得 越 来 越 快 ， 但 还 不 够 快 。 玻 尔 效 曼 机 的 
技术 性 能 非常 出 色 ， 但 是 要 模拟 起 来 却 慢 得 让 人 无 法 处 受 。 真 正 帮 助 我 
们 取得 进展 的 是 一 种 更 快 的 学 习 算 法 ， 恰 恰 在 我 们 最 需要 它 的 时 候 ， 它 
与 我 们 不 期 而 遇 了 。 
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08 
反问 传播 算法 


加 州 大 学 圣迭戈 分 校 成立 于 1960 年 ， 现 已 发 展 成 为 生物 医学 研究 的 
主要 中 心 。 它 在 1986 年 成 立 了 世界 上 第 一 个 认 知 科学 系 。 [1] Xn dg 
哈 特 ( 见 图 8-1) 在 那 时 已 经 是 一 位 杰出 的 数学 家 和 认 知 心理 学 家 ， 他 曾 
在 以 符号 学 和 规则 为 基础 的 传统 人 工 智 能 领域 工作 过 ， 这 类 研究 在 20 世 
纪 70 年 代 的 人 工 智 能 研究 中 占 主 导 地 位 。1979 年 ， 我 在 加 州 大 学 圣迭戈 
分 校 由 杰 弗 里 : 辛 顿 组 织 的 研讨 会 上 第 一 次 见 到 了 大 卫 ， 当 时 他 开创 了 一 
种 新 的 探索 人 类 心理 的 方法 ， 他 和 詹姆斯 :麦克 莱 兰 称 之 为 “并 行 分布 式 处 
理 ”( 以 下 简称 PDP) 。 大 卫 总 是 能 对 问题 进行 深入 思考 ， 并 经 常 提出 富 
有 洞察 力 的 评论 。 

玻 尔 效 曼 机 学 习 算法 可 以 学 习 如 何 解决 需要 隐藏 单元 的 问题 ， 这 表 
明 ， 训 练 多 层 网 络 并 突破 感知 器 的 限制 是 可 行 的 ， 而 这 种 观点 与 马 文 . 明 
斯 基 和 西 摩尔 . 帕 普 特 以 及 该 领域 大 多 数 人 的 观点 相左 。 网 络 中 的 层 数 或 
任 一 给 定 层 内 的 连接 性 都 不 存在 任何 限制 。 但 是 有 一 个 问题 ， 达 到 平衡 
和 收集 统计 数据 来 进行 模拟 的 速度 变 得 越 来 越 慢 ， 大 型 网 络 需 要 花费 更 
长 的 时 间 才 能 达到 平衡 。 


图 8-1 1986 年 左右 在 加 州 大 学 圣迭戈 分 校 的 大 卫 : 鲁 姆 哈 特 ， 那 时 他 刚 出 版 了 两 卷 《 并 行 分 布 式 处 


FH) (Parallel Distributed Processing ) 。 鲁 姆 哈 特 在 多 层 网 络 模型 学 习 算法 的 技术 开发 领域 有 很 
大 的 影响 力 ， 并 用 该 技术 来 帮助 我 们 理解 语言 和 思维 心理 。 图 片 来 源 : 大 卫 . 鲁 姆 哈 特 。 


VH 


原则 上 ， 可 以 构建 具有 大 规模 并 行 体系 结构 的 计算 机 ， 该 计算 机 比 
具有 每 次 只 进行 一 次 更 新 的 传统 冯 . 诺 依 曼 体系 结构 的 计算 机 快 得 多 。20 
世纪 80 年 代 的 数字 计算 机 每 秒 只 能 执行 100 万 次 操作 。 今 天 的 计算 机 每 秒 
能 够 执行 数 十 亿 次 操作 ， 并 且 通 过 将 数 千 个 内 核 连 接 在 一 起 实现 的 高 性 
能 计算 机 ， 其 速度 比 以 前 快 上 百 万 倍 ”技术 性 能 得 到 了 空前 的 提高 。 

“曼哈顿 计划 ”是 美国 在 无 法 保证 原子 弹 能 够 研制 成 功 的 情况 下 做 出 
的 260 亿 美元 的 赌注 (以 2016 年 的 美元 价值 计算 ) ， 最 大 的 秘密 就 是 它 的 
确 有 成 功 的 苗头 。 当 使 用 玻 尔 兹 曼 机 可 以 训练 多 层 网 络 的 秘密 被 公开 
后 ， 许 多 新 的 学 习 算 法 如 雨后春笋 般 不 断 涌 现 。 在 杰 莫 里 . 辛 顿 和 我 研究 
玻 尔 兹 曼 机 的 同时 ， 大 卫 : 鲁 姆 哈 特 开发 了 另 一 种 多 层 网 络 学 习 算 法 ， 而 
后 来 的 实践 证 明 ， 这 种 算法 的 效率 更 高 。 [2] 


算法 的 优化 


(eA, (Optimization) 是 机 器 学 习 中 一 个 关键 的 数学 概念 : 对 于 许多 
问题 ， 可 以 找到 一 个 代价 函数 (cost function) ， 而 问题 的 解决 方案 就 是 
代价 最 低 时 的 系统 状态 。 对 于 霍 普 菲 尔 德 网 络 来 说 ， 代 价 画 数 就 是 能 
量 ， 目 标 是 找到 使 网 络 能 量 最 小 化 的 状态 (如 第 6 章 所 壕 ) 。 对 于 前 馈 网 
络 ， 用 于 学 习 的 常用 代价 画 数 是 训练 集 输出 层 上 的 方差 之 和 。“ 梯 度 下 
降 ” (gradient descent) 是 一 种 能 够 最 小 化 代价 函数 的 通用 过 程 ， 实 现 方 
法 是 对 网 络 中 的 权重 沿 降低 代价 最 快 的 方向 进行 逐步 修改 。 [3] 如 果 将 
代价 画 数 看 作 山 脉 ， 那 么 梯度 下 降 就 是 选择 向 山脚 下 滑动 的 最 快 路 径 。 


鲁 姆 哈 特 发 现 了 如 何 通过 被 称 为 “误差 的 反 向 传播 ”(\backprop- 
agation of errors) ， 或 简称 为 “< 反 传 ”(backprop) 的 过 程 来 计算 网 络 中 每 
个 权重 的 梯度 (见方 框 8.1) 。 从 误差 已 知 的 输出 层 开始 ， 可 以 很 容易 地 
计算 出 指向 输出 单元 的 输入 权重 的 梯度 。 下 一 步 就 是 使 用 输出 层 梯度 来 
计算 上 一 层 权 重 的 梯度 ， 以 此 类 推 ， 逐 层 回 到 输入 层 。 这 是 一 种 高 效 计 
算 误差 梯度 的 方法 。 

尽管 不 像 玻 尔 北 曼 机 学 习 算法 那样 拥有 优雅 和 深厚 的 物理 学 根源 ， 
但 是 反 向 传播 效率 更 高 ， 并 且 推 动 该 领域 取得 了 快速 进展 。 由 大 卫 . 鲁 姆 
哈 特 、 杰 弗 里 . 洱 顿 和 罗 纳 德 :威廉 姆 斯 (Ronald Williams) 合 著 的 经 典 的 
反 向 传播 论文 于 1986 年 发 表 在 《自然 》 杂 志 上 ， H 迄今 为 止 ， 该 论文 
已 经 在 其 他 研究 论文 中 被 引用 超过 4 万 次 。 《世界 上 发 表 的 所 有 论文 里 有 
一 半 从 未 被 引用 过 ， 甚 至 连作 者 自己 都 不 引用 ; 一 篇 被 引用 了 100 次 的 论 
文 都 会 在 领域 内 产生 巨大 反 啊 ， 所 以 很 显然 ， 这 篇 有 关 反 向 传播 的 文章 
是 一 颗 重 磅 炸弹 。) 


8.1 
误差 反 向 传播 


输入 层 隐藏 层 输出 层 
误差 反 向 传播 


反 回 传播 网 络 的 输入 征 被 传播 的 前 馈 : 在 该 图 中 ， 左 侧 的 输入 通 
过 连接 (Buc) 回 前 传播 到 隐藏 的 单元 层 ， 然 后 投影 到 输出 层 。 输 出 
结 采 与 训练 考 给 出 的 值 进 行 比 较 ， 差 值 被 用 来 更 痢 连 接 输 出 单元 的 权 
重 ， 以 减少 误差 。 然 后 ， 根 据 每 个 权重 对 误差 页 献 的 多 少 ， 通 过 反问 
传播 误差 对 输入 单元 和 隐藏 层 之 间 的 权重 进行 更 新 。 利 用 大 量 样本 进 
行 训 练 ， 隐 藏 单元 生成 了 可 区 分 不 同 输入 模式 的 选择 性 特征 ， 这 样 一 
来 它们 了 惑 能 够 在 输出 层 中 对 不 同类 别 进行 区 分 。 这 一 过 程 被 称 为 “ 表 


征 学 习 ” (representation learning) ° 


语 首 合成 的 突破 


1984 年 ， 我 在 普林斯顿 昕 了 人 研究 生 查 尔 斯 : 罗 和 森 伯 格 (Charles 
Rosenberg) 关于 玻 尔 效 曼 机 的 演讲 。 虽 然 这 通常 是 我 演讲 的 题目 ， 但 这 
段 演 讲 还 是 令 我 印象 深刻 。 查 尔 斯 问 他 是 否 可 以 去 我 的 实验 室 参 与 一 个 
夏季 研究 项 目 。 他 来 到 巴尔 的 摩 时 ， 我 们 已 经 转向 了 反 向 传播 领域 ， 这 
让 我 们 有 可 能 考虑 现实 级 别 的 问题 ， 而 不 是 之 前 处 理 的 那 种 玩具 级 别 的 
问题 。 由 于 查尔斯 是 传奇 语言 专家 乔治 . 米 勒 (George Miller) 的 学 生 ， 
我 们 想 寻找 一 个 恰到好处 的 语言 问题 ， 既 不 会 难 到 完全 找 不 到 头绪 ， 又 
不 会 容易 到 存在 现成 的 解决 方法 。 语 言 学 是 一 个 具有 许多 分 支 学 科 的 广 
阔 领 域 ， 例 如 : 音韵 学 (phonology) ， 涉 及 单词 的 发 音 ; 句法 学 

(syntax) ， 研 究 单词 在 一 个 句子 中 是 如 何 排 列 的 ; 语义 学 
(semantics) ， 研 究 单词 和 句子 的 含义 ;还 有 语 用 学 (pragmatics) ， 研 
究 语 境 是 如 何 影响 语义 的 ， 等 等 。 我 们 决定 从 音韵 学 开始 着 手 。 

英语 是 一 种 特别 难 发 音 的 语言 ， 因 为 规则 很 复杂 ， 并 且 有 很 多 例外 
情况 。 例 如 ， 如 果 一 个 单词 的 最 后 一 个 辅音 后 面 跟 着 一 个 不 发 音 的 字 
母 <e"， 则 元 音 大 多 数 情况 下 都 要 发 长 音 ， 如 “gave” 和 “brave”。 但 是 也 有 
例外 ， 例 如 “have”， 这 个 词 的 发 音 就 与 之 前 的 规则 相悖 。 我 在 图 书馆 找 
到 了 一 本 书 ， 在 书 中 音韵 学 家 编纂 了 这 些 规则 和 例外 ， 厚 达 数 百 页 。 通 
常 例外 情况 中 也 会 有 规则 ， 而 有 时 例外 的 规则 中 还 存在 例外 情况 。 总 
之 ， 对 于 语言 学 家 来 说 , “一 路 下 来 "都 是 规则 。 Dl 更 让 人 抓 耳 挠 腮 的 
是 ， 同 样 一 个 单词 ， 并 不 是 每 个 人 的 发 音 都 一 样 。 还 存在 很 多 方言 ， 
种 方言 也 都 有 自己 的 一 套 规则 。 


杰 弗 里 . 辛 顿 在 我 们 计划 的 早期 阶段 到 约翰 . 霍 普 金 斯 大 学 拜访 了 查 尔 
斯 和 我 ， 跟 我 们 说 他 认为 英语 发 音 太 难 掌握 了 。 所 以 我 们 收 小 了 野心 ， 
找 了 一 本 总 共有 大 约 100 个 字 的 儿童 早教 读物 。 我 们 设计 的 网 络 有 一 个 由 
7 个 字母 组 成 的 窗口 ， 每 个 字母 由 29 个 单元 (包含 空格 和 标点 符号 ) 表 
示 ， 共 203 个 输入 单元 。 研 究 目标 是 预测 窗口 中 间 位 置 那 个 字母 的 读音 。 
输入 单元 与 80 个 隐藏 单元 相连 ， 隐 藏 单 元 又 投射 到 26 个 输出 单元 ， 每 个 
输出 单元 对 应 一 个 基本 发 音 ， 在 英语 里 被 称 为 “ 音 位 ” (phonemes) ° R 
们 把 该 字母 发 音 网 络 叫 作 “话语 网 络 ”( 见 图 8-2) 。 [6] 网 络 中 有 18 629 


个 权重 ， 按 照 1986 年 的 标准 衡量 ， 这 是 个 十 分 庞大 的 数字 。 而 按照 当时 
的 数学 统计 标准 来 看 ， 根 本 没 法 进行 操作 。 有 了 这 么 多 的 参数 ， 我 们 被 
告知 训练 集 可 能 会 被 过 度 拟 合 ， 导 致 网 络 无 法 泛 化 。 


当 单 词 在 有 7 个 字母 的 窗口 中 依次 罕 过 时 ， 网 络 为 窗口 中 位 于 中 间 的 
字母 分 配 了 一 个 音 位 。 项 目 中 化 费时 间 最 长 的 部 分 ， 是 手动 将 音 位 与 正 
确 的 字母 相 匹配 ， 因 为 字母 的 数量 与 每 个 单词 中 音 位 的 数量 不 同 。 相 比 
之 下 ， 学 习 过 程 束 发 生 在 我 们 眼前 ， 其 表现 随 着 句子 在 窗口 中 循环 而 变 
得 越 来 越 好 。 当 学 习 收 敛 时 ， 网 络 在 有 100 个 单词 的 训练 集中 的 表现 卉 称 
完美 。 虽 然 对 新 单词 进行 测试 的 效果 很 差 ， 但 由 于 我 们 对 在 这 样 一 个 小 
的 训练 集 上 成 功 泛 化 的 预期 并 不 高 ， 所 以 这 个 初步 结果 仍然 令 人 鼓舞 。 
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图 8-2 话语 网 络 前 馈 网 络 模型 。 底 层 的 7 组 单元 代表 在 文本 间 移 动 的 窗口 中 的 字母 ， 每 次 提取 一 个 
字母 。 司 位 置 的 字母 的 声音 ， 在 这 个 例子 中 就 是 很 难 发 音 
的 “c” 音 位 。 输 入 层 的 每 个 单元 与 所 有 隐藏 单元 都 建立 了 连接 ， 而 后 者 又 会 投射 到 输出 层 上 的 
所 有 单元 。 反 向 传播 学 习 算法 能 够 使 用 来 自 训练 者 的 反馈 来 训练 权重 。 正 确 的 输出 模式 会 与 网 络 
在 这 个 例子 里 ， 输 出 的 是 "k” 音 位 ， 那 么 误差 就 会 被 反 向 传播 给 前 面 若 干 
un 38 。 


隐藏 单元 


随后 ， 我 们 使 用 了 含有 2 万 个 字母 的 布朗 语料库 (Brown Corpus) 
Z] ， 并 为 每 个 字母 指定 了 音 位 以 及 重音 标记 。 字 母 和 声音 的 对 应 工作 花 


了 几 周 的 时 间 ， 但 是 学 习 开 始 后 ， 网 络 在 一 个 晚上 就 吸收 了 整个 训练 集 
的 信息 。 那 么 它 能 进行 泛 化 吗 ? 结果 证 明 ， 泛 化 的 结果 非常 漂亮 。 该 网 
络 已 经 发 现 了 英语 发 音 的 规律 性 ， 并 且 可 以 识别 出 例外 情况 ， 所 有 这 些 
都 是 基于 相同 的 架构 和 学 习 算法 。 虽 然 按照 今天 的 标准 来 看 ， 这 一 成 果 
微不足道 ， 但 我 们 的 网 络 很 好 地 证 明了 反 向 传播 网 络 如 何 能 够 有 效 地 表 
征 英语 音 竟 。 这 是 我 们 得 到 的 第 一 个 暗示， 即 神经 网 络 学 习 语言 (符号 
表征 的 典型 代表 ) 的 方式 和 人 类 的 学 习 方式 相同 。 

在 获得 了 大 声 朗读 的 能 力 后 ， 话 语 网 络 首先 经 历 了 一 个 胡言 乱 语 的 
阶段 ， 成 功 识别 了 辅音 和 元 音 之 间 的 区 别 ， 却 将 音 位 "b” 分 配给 了 所 有 畏 
音 ， 将 音 位 ra" 分 配给 了 所 有 的 元 音 。 刚 开始 ， 它 的 发 音 听 起 来 像 "ba 
ba”， 经 过 更 多 的 学 习 之 后 ， 发 音 偏 向 了 “ba ga da" * XRG Leur 
学 语 的 状态 非常 类 似 。 之 后 它 开始 能 够 正确 地 说 出 短 词 的 发 音 ， 最 后 在 
训练 结束 时 ， 我 们 已 经 可 以 听 懂 它 说 的 大 多 数 单词 了 。 


为 了 测试 话语 网 络 在 方言 上 的 表现 ， 我 们 找到 了 一 个 来 自 洛杉矶 郊 
外 的 拉丁 裔 男孩 接受 采访 时 的 音韵 翻录 材料 。 训 练 有 素 的 网 络 重新 创建 
了 一 段 该 男孩 带 有 西班牙 语 口音 的 英语 ， 谈 论 的 是 他 探望 自己 的 祖母 
时 ， 有 时 会 得 到 糖果 。 通 过 将 话语 网 络 的 输出 播放 到 一 个 叫 
作 *DECtalk” 的 语音 合成 器 中 ， 一 串 音 位 标签 被 转换 为 可 听 的 语音 ， 我 记 
录 下 了 学 习 阶 段 中 的 一 系列 语音 片段 。 当 我 在 某 次 演讲 过 程 中 播放 这 段 
录音 时 ， 台 下 的 观众 彻底 震惊 了 一 一 这 个 网 络 直 接 证 明了 它 的 语言 能 
Jo [B] 这 个 暑期 项 目的 结果 完全 超出 了 我 们 的 预期 ， 并 成 为 神经 网 络 
学 习 领 域 的 第 一 个 实际 应 用 。1986 年 ， 我 带 着 话语 网 络 参加 了 《今日 
秀 》 (Today show ) 节目 ， 那 一 期 的 收视 率 很 惊人 。 在 此 之 前 ， 神 经 网 
络 一 直 是 一 门神 秘 的 学 科 。 我 还 遇 到 过 很 多 人 ， 他 们 在 观看 这 个 节目 时 
是 第 一 次 听 到 神经 网 络 这 个 概念 。 

虽然 话语 网 络 有 力 地 证 明了 一 个 神经 网 络 的 确 能 够 对 语言 的 某 些 方 
面 进行 表征 ， 但 它 并 不 是 反映 人 类 如 何 获得 阅读 技能 的 优质 模型 。 首 
先 ， 我 们 在 学 习 阅读 之 前 就 先 学 会 了 说 话 。 其 次 ， 有 限 的 几 个 语音 规则 
就 能 帮助 我 们 开启 大 声 精 确 朗 读 的 复杂 任务 。 但 是 ， 大 声 朗 读 很 快 就 变 


成 了 快速 的 模式 识别 ， 并 不 需要 有 意识 地 应 用 规则 。 大 多 数 会 说 英语 的 
人 都 会 在 阅读 刘易斯 : 卡 罗 尔 (Lewis Carroll) 的 诗 Jabberwocky 时 ， 不 由 
目 主 地 读 出 “brillig”、`\“slithy” 和 “toves” 等 无 意义 的 词 ， 就 像 读 正常 的 词 一 
样 ， 话 语 网 络 也 是 如 此 。 这 些 虚 构 的 词 不 存在 于 任何 字典 中 ， 但 是 可 以 
触发 由 英语 中 相关 字母 模式 组 成 的 音 位 。 

话语 网 络 给 观众 留 下 了 深刻 的 印象 ， 不 过 现在 ， 查 尔 斯 和 我 需要 对 
这 个 网 络 进行 分 析 ， 弄 清楚 它 到 底 是 如 何 工作 的 。 为 此 ， 我 们 对 隐藏 单 
元 中 的 活动 模式 进行 了 聚 类 分 析 (cluster analysis) ， 并 发 现 话语 网 络 察 
觉 到 了 相似 的 元 音 和 辅音 的 分 类 ， 这 和 语言 学 家 们 已 经 识别 出 的 分 类 相 
同 。 马 克 : 塞 登 伯 格 (Mark Seidenberg) 和 詹姆斯 :麦克 羔 兰 采用 了 一 种 类 
似 的 方法 作为 研究 的 起 点 ， 将 其 与 儿 重 在 学 习 阅 读 时 经 历 的 一 系列 阶段 
进行 了 详细 比较 。 [9] 


话语 网 络 以 出 人 意料 的 方式 影响 了 这 个 世界 。 作 为 约翰 : 霍 普 金 斯 大 
学 托马斯 -詹金斯 (Thomas C. Jenkins) 生物 物理 系 的 一 名 教员 ， 我 开始 
对 和 蛋 日 质 折 靶 的 问题 产生 了 兴趣 。 和 蛋白 质 是 由 一 系列 氨基 酸 折 苟 成 的 复 
杂 的 结构 ， 该 结构 赋予 了 蛋 日 质 广 泛 的 功能 ， 例 如 血红 蛋白 ， 它 能 够 与 
血红 细胞 中 的 氧 结 合 。 根 据 氨 基 酸 序列 来 预测 蛋白 质 的 三 维 形状 是 一 个 
难度 很 高 的 计算 问题 ， 对 大 多 数 蛋 日 质 来 说 ， 即 便 使 用 功能 最 强大 的 计 
算 机 也 没 办 法 实现 。 然 而 ， 有 一 种 单元 结构 相对 更 容易 预测 ， 被 称 为 二 
级 结构 (secondary structures) 。 在 二 级 结构 中 ， 和 氨基 酸 以 螺旋 、 平 面 或 
无 规 卷 曲 的 方式 缠绕 。 生 物 物理 学 家 们 使 用 的 算法 考虑 了 不 同 氨 基 酸 的 
化 学 性 质 ， 但 他 们 的 预测 还 不 足以 解决 三 维 空间 的 折 县 问题 。 


钱 宁 是 我 实验 室 的 一 年 级 研究 生 ， 他 是 1980 年 在 中 国 所 有 物理 系 的 
学 生 中 ， 为 数 不 多 被 选中 来 美国 攻读 研究 生 课 程 的 人 之 一 。 我 们 想 知 
道 ， 如 末 为 每 个 氨基 酸 分 配 蝶 旋 、 平 面 或 无 规 卷曲 的 参数 ， 话 语 网 络 是 
否 可 以 通过 一 串 筑 基 酸 序列 来 预测 蛋 日 质 的 二 级 结构 。 这 有 是 一 个 重要 的 
问题 ， 因 为 蛋 日 质 的 三 维 结构 决定 了 它 的 功能 。 输 入 由 字母 序列 变 成 了 
氨基 酸 序列 ， 而 预测 的 结 采 由 音 位 变 成 了 二 级 结构 。 训 练 集 是 由 X 射 线 
品 体 学 确定 的 三 维 结构 。 让 我 们 意 想 不 到 的 是 ， 它 对 于 新 和 蛋 日 质 的 二 级 


结构 的 预测 ， 要 远 远 好 于 基于 生物 物理 学 的 最 佳 方法 ， [10] 这 一 具有 里 
程 碑 意义 的 研究 是 机 器 学 习 在 分 子 序 列 中 的 首次 应 用 ， 该 领域 现在 被 称 
为 生物 信息 学 (bioinformatics) 。 


另 一 个 学 会 了 如 何 形成 英语 动词 过 去 时 的 网 络 ， 成 了 认 知 心理 学 领 
域 中 备 受 争议 的 问题 ， 基 于 规则 的 保守 派 与 前 卫 的 PDP 人 研究 组 展开 了 激 
烈 的 争论 。 ULL 形成 过 去 时 的 常规 方法 是 给 英文 动词 加 上 后 级 “ed”*， 例 
如 把 “train” 变 成 “trained”。 但 是 有 不 规则 形式 的 例外 ， 例 如 把 “run” 变 
成 “ran”。 神 经 网 络 可 以 很 好 地 适应 规则 和 例外 情况 。 虽 然 人 们 在 这 一 点 
上 已 经 很 少 和 争论 了 ， 但 关于 规则 的 显 式 表征 (explicit representation) 在 
大 脑 中 的 角色 这 一 问题 ， 仍 然 有 竺 回答 。 最 近 利 用 神经 网 络 学 习 语 言 的 
实验 文 持 了 屈折 形态 学 (inflectional morphology) 中 的 逐步 获取 概念 ， 这 
与 人 类 的 学 习 方 式 是 一 致 的 。 [12] 深度 学 习 与 谷歌 翻译 和 其 他 自然 语言 
应 用 相 结 合 ， 在 捕捉 语言 细微 差别 上 获得 的 成 功 ， 进 一 步 文 持 了 大 脑 不 
需要 使 用 显 式 语言 规则 的 可 能 性 ， 即 便 其 实际 行为 可 能 体现 了 相反 的 结 
论 。 

WEE AM KEREN (David Touretzky) 和 我 于 1986 年 在 卡 
内 基 - 梅 隆 大 学 组 织 了 第 一 期 联结 主义 暑期 课程 ( 见 图 8-3) ， 那 时 候 只 
有 少数 几 所 大 学 开设 了 神经 网 络 课程 。 在 一 个 基于 话语 网 络 的 小 游戏 
中 ， 学 生 们 逐 层 列队 ， 每 个 学 生 代 表 网 络 中 的 一 个 单元 (尽管 他 们 在 传 
播 “Sejnowski”* 中 的 ”时 发 生 了 错误 ， 因 为 它 的 发 首 类 似 于 “y”*"， 并 不 遵循 
英文 发 音 模式 ) 。 这 些 学 生 中 的 许多 人 随后 都 陆续 获得 了 重要 发 现 ， 并 
开创 了 各 自 的 事业 。1988 年 ， 第 二 期 暑期 课程 在 卡 内 基 - 梅 隆 大 学 开办 ， 
1990 年 第 三 期 的 举办 地 是 加 州 大 学 圣迭戈 分 校 。 新 的 想法 在 经 历 了 一 代 
人 的 时 间 后 ， 才 进入 主流 研究 领域 。 这 些 暑 期 课程 让 所 有 人 受益 菲 浅 ， 
也 是 我 们 在 早期 推广 该 领域 的 最 佳 投 资 。 
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版 ,已 经 成 为 当今 的 经 典 著作 。 这 是 第 一 套 阐 述 神 经 网 络 和 多 层 学 习 算 
法 对 理解 精神 和 行为 现象 的 影响 的 书籍 。 它 的 销量 超过 了 5 万 套 ， 在 学 术 
领域 算得 上 是 畅销 书 了 。 神 经 网 络 在 经 过 了 反 向 传播 的 训练 后 ， 其 隐藏 
单元 具备 了 类 似 视觉 系统 中 皮层 神经 元 的 属性 ， 3] 而 且 其 展现 出 的 故 
障 模式 ， 也 和 人 类 在 大 脑 受 损 后 产生 的 缺陷 有 很 大 的 相似 性 。[14] 


弗 表 西 斯 : 克 里 克 是 PDP 小 组 的 成 员 ， 参 加 了 小 组 大 部 分 的 会 议和 讲 
座 。 在 关于 并 行 分 布 式 处 理 模 型 如 何 具有 生物 特性 的 争论 中 ， 他 认为 应 
该 将 它们 看 作 可 行 性 证 明 ， 而 不 是 大 脑 的 标准 模型 。 他 为 《并 行 分 布 式 
处 理 》 一 书 撰写 了 其 中 一 个 章 帮 ， 介 绍 了 当时 我 们 所 了 解 的 大 脑 庶 层 。 
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解 。 如 有 果 这 些 章节 是 今天 写 下 的 ， 都 会 比 原 来 的 版 本 要 长 得 多 。 


20 世 纪 80 年 代 还 有 一 些 成 功 案例 并 不 为 人 所 知 。 基 于 神经 网 络 技术 
的 最 赚钱 的 公司 之 一 是 HNC Software 有 限 公 司 ， 由 罗伯特 . 赫 克 特 - 尼 和 尔 
条 (Robert Hecht-Nielsen) 创立 ， 该 公司 使 用 神经 网 络 来 防止 信用 卡其 
诈 。 赫 区 特 - 尼 尔 森 曾 在 加 州 大 学 圣 友 戈 分 校 的 电子 与 计算 机 工程 系 任 
教 ， 教 授 过 一 门 关于 神经 网 络 实际 应 用 的 热门 课程 。 每 天 都 有 信用 卡 信 
息 被 全 球 网络 犯 罪 分 子 盗 取 。 信 用 卡 的 交易 数据 规模 十 分 庞大 ， 从 中 挑 
出 可 疑 的 信息 是 一 项 艰巨 的 任务 。 在 20 世 纪 80 年 代 ， 工 作 人 员 要 在 短 时 
间 内 做 出 是 否 批准 或 拒绝 某 项 信用 卡 交 易 的 决定 ， 而 这 导致 了 每 年 1500 
多 亿美 元 的 交易 存在 欺诈 行为 。HNC Software 有 限 公 司 使 用 神经 网 络 学 
习 算 法 ， 以 远 高 于 人 类 的 准确 度 检测 信用 卡其 诈 行 为 ， 每 年 为 信用 卡 公 
司 和 省 了 数 十 亿美 元 。2002 年 ，HNC 被 美国 个 人 消费 信用 评估 公司 
(Fair Isaac and Company, FICO) 以 10 亿 美元 的 价格 收购 ， 后 者 以 发 布 
信用 评分 而 闻名 。 
观察 神经 网 络 的 学 习 过 程 颇 有 些 神奇 ， 它 不 断 以 微小 的 步伐 优化 目 
号 的 表现 。 这 个 过 程 会 十 分 缓慢 ， 但 是 如 果 有 足够 的 训练 样本 ， 并 且 网 
络 足 够 大 ， 学 习 算法 就 可 以 找到 一 个 很 好 的 能 够 泛 化 的 表征 方式 ， 以 适 
应 新 的 输入 。 采 用 随机 选择 的 一 组 初始 权重 并 重复 该 训练 过 程 时 ， 每 次 
都 会 学 习 到 不 同 的 网 络 ， 但 都 具有 相似 的 性 能 。 许 多 网 络 可 以 解决 同样 
的 问题 ， 这 就 暗示 了 当 我 们 重建 不 同 个 体 大 脑 的 完整 连接 集 时 ， 应 该 怀 
有 何 种 期 待 。 如 有 果 许 多 网 络 表 现 出 了 相同 的 行为 ， 理 解 它 们 的 关键 惑 在 
于 大 脑 所 使 用 的 学 习 算 法 ， 而 这 个 算法 应 该 更 容易 被 发 现 。 


理解 真正 的 深度 学 习 


在 是 优化 (convex optimization) 问题 中 ， 不 存在 局 部 最 小 值 ， 可 以 
保证 收敛 发 生 在 全 局 最 小 值 处 。 但 在 非 凸 优化 问题 中 ， 情 况 束 不 同 了 。 
优化 专家 告诉 我 们 ， 由 于 在 隐藏 单元 网 络 中 学 习 是 一 个 非 凸 优化 问题 ， 


Pr CA Baar ELE EE YR Be SE TRI 3T ES IER ELA Jeg eB eM ( 见 图 8- 
4) 。 但 经 验证 据 表 明 ， 他 们 错 了 “。 为 什么 呢 ? 我们 现在 知道 ， 在 维度 很 
高 的 至 间 中 ， 代 价 画 数 的 局 部 最 小 值 是 很 罕见 的 ， 直 到 学 习 的 最 后 阶段 
才 会 出 现 。 在 早期 阶段 ， 几 乎 所 有 的 方 同 都 是 下 坡 ， 而 在 下 坡 的 过 程 中 
存在 鞍点 ， 一 些 方向 会 错误 地 开始 上 升 ， 而 在 其 他 维度 则 继续 下 降 。 
生 网 络 会 cid E 征 因 为 解决 低 维 空间 中 的 问题 时 ， 
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目前 的 深层 网 络 模型 有 数 百 万 个 单元 和 数 十 亿 的 权重 。 


此 ， 非 四 代价 画 数 和 


0 


图 8-4 非 凸 代价 函数 和 凸 代价 画 
, RAKE 


数 。 


这 些 


图 形 将 


任何 


位 置 向 


雪 板 朝向 


民 难 优化 。 


数 百 万 个 参数 ) 


当 你 


T 


FEES FR, 


Bx bell 


) ， 


不 过 这 个 
， 就 会 存在 鞍点 ， 即 在 某 些 维度 
个 下 坡 的 方向 。 


PE 
一 维 


总 会 存在 一 


Bay PROTA, 


移动 都 可 达到 的 全 


Peake 


传统 上 只 用 少量 参数 分 析 人 简单 模型 ， 


定理 。 而 拥有 数 十 亿 个 维度 的 空 


ABF, 
的 例子 具有 一 定 的 误导 性 。 当 


ROAR (0 ) 2 


0 


会 制 为 参数 0 TS < UTER UA 


保证 你 一 定 会 
让 你 无 法 通过 一 


局 最 小 值 


THEIR ° 


想象 一 下 ， 你 是 一 名 


路 


WE 


会 向 


找到 全 


起 ， 


而 在 另 一 些 


EE i 


itr T, MÈNE 
局 最 小 值 。 
4 有 许多 参数 时 
Ft 


因 


常 在 
度 上 


统计 学 家 在 


这 样 束 可 以 用 较 小 的 数据 集 来 证 明 


间 对 他 们 来 说 位 直 束 是 


TEASER o ftl] 


向 我 们 保证 ， 有 这 么 多 的 参数 ， 对 数据 的 过 度 拟 合 绝对 是 不 可 避免 的 : 
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。 但 是 


一 个 特别 巧妙 的 正则 化 技术 ， 
杰 弗 里 : 辛 顿 。[13] 在 每 个 学 习 周 期 (epoch) 
计 出 梯度 ， 并 对 权重 进行 更 新 时 ， 有 一 


过 强迫 它们 进 


TETTE DOE DERE 
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， 其 发 明 者 是 


， 当 从 许多 训练 实例 中 估 
半 的 单元 束 会 被 随机 地 暂时 从 网 


络 中 剔除 一 这 就 意味 着 ， 每 个 周期 中 训练 的 都 是 不 同 的 网 络 。 其 导致 
的 结果 就 是 ， 在 每 个 周期 中 需要 训练 的 参数 都 更 少 ， 并 且 与 在 每 个 周期 
中 训练 相同 的 大 型 网 络 相 比 ， 单 元 之 间 的 依赖 关系 更 少 。 失 活 过 程 将 深 
度 学 习 网 络 的 错误 率 降 低 了 10%， 这 是 一 个 很 大 的 改进 。2009 年 ， 网 飞 
(Netflix) 举办 了 一 场 公开 竞赛 -第 一 个 将 他 们 推荐 系统 的 错误 减少 
10% 的 人 ， 会 得 到 100 万 美元 的 奖金 [16] 几乎 每 个 机 器 学 习 领域 的 研究 
生 都 参与 了 竞争 。 网 飞 的 这 笔 奖 金 很 可 能 启发 了 价值 1000 万 美元 的 研 
究 。 现 在 ， 深 度 网 络 已 经 成 为 在 线 流 媒体 的 核心 技术 。 (ZI 

有 趣 的 是 ， 皮 层 突 触 会 以 很 高 的 速度 失 活 。 对 于 来 自 输入 的 放电 ， 
皮层 中 典型 的 兴奋 性 突 触 都 有 90% 的 失败 率 © (18) 这 就 像 一 个 棒球 队 ， 
几乎 所 有 球员 的 击 球 成 功率 都 是 0.1。 大 脑 是 如 何 利用 这 种 不 可 靠 的 皮层 
突 触 来 实现 可 靠 的 功能 呢 ? 当 每 个 神经 元 上 存在 数 千 个 概率 突 触 时 ， 其 
活动 总 和 的 多 样 性 相对 较 低 ， 9] 这 意味 着 其 性 能 可 能 不 会 像 你 想象 的 
那样 大 规模 地 下 降 。 学 习 过 程 中 在 突 触 层面 发 生 失 活 的 好 处 ， 可 能 远大 
于 准确 性 降低 的 代价 。 而 且 由 于 突 触 需要 消耗 大 量 的 能 量 ， 失 活 也 可 以 
节省 能 量 。 最 后 ， 皮 层 使 用 概率 来 计算 可 能 的 ， 而 非 确定 的 结果 ， 所 以 
使 用 概率 性 分 量 是 表示 概率 的 有 效 方式 。 


虽然 皮层 突 触 也 许 并 不 可 靠 ， 但 是 它们 的 强度 却 尺 人 的 精确 。 皮 层 
突 触 的 大 小 及 其 相应 的 强度 在 100 倍 的 范围 内 变化 ， 单 一 突 触 的 强度 可 以 
在 此 范围 内 增加 或 减少 。 与 得 克 院 斯 大 学 奥 斯 订 分校 的 神经 解剖 学 家 克 
里 斯 汀 :哈里 斯 (Kristen Harris) 合作 ， 我 的 实验 室 最 近 重 建 了 一 小 块 大 
鼠 的 海马 体 ， 这 是 大 脑 中 形成 长 期 记忆 所 需 的 区 域 ， 其 中 包含 450 个 突 
触 。 大 多 数 轴 突 会 在 树 突 的 分 文 上 形成 单个 突 触 ， 但 在 少数 情况 下 ， 一 
个 轴 突 的 两 个 突 触 会 接触 到 相同 的 树 突 。 令 人 惊讶 的 是 ， 它 们 的 尺寸 几 
乎 相同 ， 之 前 的 研究 经 验 告 诉 我 们 ， 这 意味 着 它们 也 具有 相同 的 强度 。 
人 们 已 经 了 解 了 导致 这 些 突 触 强度 发 生变 化 的 条 件 。 这 些 突 触 的 强度 变 
化 取决 于 输入 尖峰 的 历史 和 树 突 啊 应 的 电话 动 ， 对 于 来 目 同一 个 树 突 上 
相同 轴 突 的 一 对 突 触 来 说 也 是 如 此 。 根 据 这 些 观察 ， 我 们 推 听 信息 存储 


在 突 触 强度 中 的 精度 很 高 ， 足 以 存储 至 少 5 位 信息 。 20) 深度 循环 网 络 
的 学 习 算 法 只 需要 5 位 就 能 实现 高 水 平 的 性 能 ， 这 很 可 能 不 是 巧合 。 LU 

大 脑 网 络 的 维度 非常 高 ， 我 们 对 其 甚至 没有 很 好 的 估计 。 大 脑 皮 层 
中 的 突 触 总 数 约 为 100 万 亿 ， 几 乎 是 个 天 文 数字 。 人 类 的 寿命 不 过 几 十 亿 
秒 。 以 这 样 的 速度 ， 你 可 以 为 你 生活 中 的 每 一 秒 贡献 出 10 万 个 突 触 。 在 
实际 情况 中 ， 神 经 元 往往 具有 聚集 的 局 部 连接 ， 例 如 在 由 10 亿 个 突 触 连 
接 的 由 10 万 个 神经 元 组 成 的 皮层 柱 内 。 虽 然 这 仍然 是 一 个 很 大 的 数字 ， 
但 还 远 算 不 上 天 文 数字 。 长 距离 连接 比 本 地 连接 要 少 得 多 ， 因 为 神经 连 
接 会 占用 宝贵 的 空间 ， 并 且 会 消耗 大 量 能 量 。 

代表 皮层 中 一 个 对 象 或 概念 的 神经 元 的 数量 ， 是 一 个 重要 的 数字 。 
粗略 估计 一 下 ， 需 要 的 突 触 数 量 约 为 10 亿 ， 需 要 的 神经 元 数量 约 为 10 
万 ， 分 布 在 10 个 皮层 区 域 中 。 [22] 也 就 是 说 ， 约 10 万 个 独立 的 、 互 不 干 
扰 的 对 象 类 别 和 概念 存储 在 100 万 亿 个 突 触 中 。 在 实际 情况 中 ， 代 表 相 似 
对 象 的 神经 元 群 是 重 友 的 ， 这 可 以 大 大 增加 皮层 表达 相关 对 象 和 对 象 之 
间 关 系 的 能 力 。 这 种 能 力 在 人 类 中 比 在 其 他 哺乳 动物 中 要 强大 得 多 ， 因 
为 人 类 大 脑 中 的 联合 皮层 (associative cortex， 在 感官 和 运动 层级 的 上 
Jj) 在 进化 过 程 中 发 生 了 显著 的 扩张 。 


高 维 空 间 中 概率 分 布 的 研究 在 20 世 纪 80 年 代 还 是 一 个 相对 而 言 未 被 
开发 的 统计 领域 。 有 几 位 统计 学 家 研究 了 在 探究 高 维 空间 和 高 维 数据 集 
时 出 现 的 统计 问题 ， 例 如 斯 坦 福 大 学 的 里 奥 : 布 莱 曼 (Leo Breiman) , ftt 
是 NIPS 社 区 中 的 一 员 。 来 目 该 社区 的 一 些 人 ， 例 如 加 州 大 学 伯克利 分 校 
的 迈克 尔 : 乔 丹 (Michael Jordan) 也 在 统计 系 任职 。 然 而 大 多 数 情况 下 ， 
大 数据 时 代 的 机 需 学 习 已 经 发 展 到 了 令 统 计 学 家 望 而 生 县 的 程度 。 但 仅 
仅 通过 训练 大 型 网 络 来 做 出 令 人 惊叹 的 事情 是 不 够 的 ， 我 们 也 需要 分 析 
和 理解 它们 是 如 何 做 到 的 。 物 理学 家 在 这 方面 占据 了 领先 地 位 ， 由 于 神 
经 元 和 突 触 的 数量 越 来 越 大 ， 他 们 利用 了 统计 物理 学 的 方法 来 分 析 学 习 
的 特性 。 


2017 年 在 长 滩 举 办 的 NIPS 会 议 上 , “时 间 考 验 奖 ” (the Test of Time 
award) 被 授予 了 加 州 大 学 伯克利 分 校 的 本 杰 明 : 雷 希 特 (Benjamin 


Recht) 和 谷歌 的 阿里 . 拉 希 米 (Ali Rahimi) 在 2007 年 联名 发 表 的 NIPS 论 
Xx» (23) 该 论文 表明 ， 随 机 特征 可 以 有 效 地 提高 具有 一 层 学 习 权 重 网 络 
的 性 能 的 有 效 方法 ， 这 是 弗兰克 . 罗 森 布 拉 特 在 1960 年 通过 感知 器 的 试验 
了 解 到 的 。 拉 希 米 在 获奖 后 的 演讲 中 发 出 了 对 机 器 学 习 严 谨 性 的 强烈 呼 
吁 ， 他 感到 深度 学 习 缺 乏 严 谨 性 ， 并 嘲讽 它 为 “炼金 术 ”。 我 当时 正 坐 在 
Ae KRSM (Yan LeCun) 旁边 。 听 完 演讲 ， 杨 立 昆 在 一 篇 
博客 中 写 道 :“ 批 评 整 个 团体 (还 是 那个 领域 中 非常 成 功 的 团体 ) 是 在 外 
研 :炼金 术 ,， 仅 仅 因为 我 们 目前 的 理论 工具 还 没有 赶 上 我 们 的 实践 ， 这 
是 十 分 危险 的 做 法 。 为 什么 危险 呢 ? 正 是 这 种 态度 ， 导 致 机 器 学 习 社 区 
将 神经 网 络 的 研究 搁置 了 超过 10 年 ， 尽 管 有 充分 的 经 验证 据 表明 ， 它 们 
在 许多 情况 下 运行 良好 。”[24] 这 是 一 次 经 典 的 道 歇 和 整洁 的 科学 方法 
之 间 的 混战 。 想 要 取得 进展 ， 这 两 个 都 是 不 可 或 缺 的 。 


神经 网 络 的 局 限 性 


虽然 神经 网 络 可 以 给 出 一 个 问题 的 正确 答案 ， 但 目前 还 没有 办 法 解 
释 它 们 是 如 何 得 到 这 个 答案 的 。 例 如 ， 假 设 一 名 感到 胸部 刺 痛 的 女性 叫 
者 来 到 急诊 室 。 这 是 心肌 梗死 的 一 种 症状 ， 需 要 立即 进行 干预 ， 还 是 仅 
仅 征 由 一 种 严重 的 消化 不 恨 引 起 的 呢 ? 训练 有 素 的 神经 网 络 可 能 会 比 医 
生 做 出 更 准确 的 诊断 ， 但 如 果 不 请 楚 网 络 为 何 做 出 这 样 的 决定 ， 我 们 束 
有 理由 不 信任 它 。 医 生 和 算法 一 样 ， 也 要 接受 一 系列 测试 和 决策 点 的 指 
导 ， 通 过 常规 案例 进行 培训 。 但 问题 在 于 ， 有 些 罕见 的 情况 并 不 在 他 们 
算法 有 覆盖 的 范围 之 内 ， 而 神经 网 络 则 经 历 过 更 多 案例 的 训练 ， 远 远 超 过 
一 般 医生 在 一 生 中 会 经 历 的 ， 网 络 可 能 会 很 好 地 捕捉 到 这 些 罕见 病例 。 
但 是 ， 你 会 相信 无 法 解释 其 理由 ， 但 从 统计 上 来 说 诊断 能 力 更 强 的 神经 
网 络 ， 而 不 去 相信 和 看 似 有 特有 据 的 医生 吗 ? 事实 上， 那些 能 够 精确 诊断 
罕见 病例 的 医生 都 有 着 丰富 的 经 验 ， 并 且 大 多 数 使 用 了 模式 识别 而 不 是 
算法 (25) 对 于 各 个 领域 的 最 高 级 别 专家 来 说 ， 情 况 可 能 都 是 如 此 。 


正如 可 以 训练 网 络 来 提供 专业 的 诊断 ， 是 否 有 可 能 把 其 背后 的 解释 
作为 训练 集 的 一 部 分 ， 来 训练 网 络 对 其 行为 进行 解释 呢 ? 这 样 一 来 也 许 
还 可 以 帮助 改善 诊断 。 这 一 建议 是 存在 问题 的 ， 原 因 是 医生 给 出 的 许多 
解释 都 是 片面 的 、 过 度 简 化 的 ， 或 错误 的 。 每 一 代 医疗 实践 与 前 一 代 相 
比 都 发 生 了 巨大 的 变化 ， 因 为 人 体 的 复杂 性 大 大 超出 了 我 们 目前 的 理解 
能 力 。 如 有 果 我 们 可 以 通过 分 析 网 络 模型 的 内 部 状态 来 提取 因果 解释 ， 殉 
可 能 会 产生 能 够 推动 医学 发 展 的 新 的 见解 和 假设 。 

神经 网 络 是 一 个 墨盒 和 于， 其 理论 尚 无 法 被 理解 ， 这 个 陈述 对 大 脑 也 
成 立 。 事 实 上 ， 在 给 定 相同 数据 的 情况 下 ， 不 同 的 个 体 做 出 的 决定 也 会 
千差万别 。 我 们 的 确 还 不 清楚 大 脑 是 如 何 从 经 验 中 得 出 推论 的 。 就 如 第 
三 章 所 讨论 的 ， 结 论 并 不 总 是 基于 逻辑 ， 其 中 还 存在 认 知 偏差 。 [26] 此 
外 ， 我 们 所 接受 的 解释 ， 往 往 仅仅 是 合理 的 解释 或 似是而非 的 故事 。 我 
们 并 不 能 排除 某 一 天 某 个 非常 大 的 生成 网 络 会 突然 开始 说 话 的 可 能 性 ， 
到 时 我 们 就 可 以 同 它 寻求 解 秋 了。 我们 是 否 应 该 期 每 ,能 从 这 样 的 网 络 
获得 比 从 人 类 那里 得 到 的 更 好 的 故事 和 合理 的 解释 呢 ? 回想 一 下 ， 和 意识 
并 不 涉及 大 脑 的 内 部 运作 。 深 度 学 习 网 络 通常 会 按照 排名 次 序 提供 几 个 
而 非 一 个 主要 的 预测 ， 这 为 我 们 提供 了 关于 结论 可 信和 度 的 一 些 信息 。 监 
督 神经 网 络 只 能 解决 用 来 训练 网 络 的 数据 苑 围 内 的 问题 。 如 采 接 受过 类 
似 案 例 或 样本 的 培训 ， 神 经 网 络 应 该 在 新 案例 做 出 一 个 很 好 的 插值 。 但 
是 ， 如 采 一 项 新 的 输入 超出 了 训练 数据 的 范围 ， 进 行 外 推 

(extrapolation) 操作 就 比较 危险 了 。 这 应 该 不 会 令 人 感到 惊讶 ， 因 为 同 

样 的 限制 也 适用 于 人 类 ; 我 们 不 应 该 期 望 一 个 物理 领域 的 专家 在 政治 问 
题 上 ， 甚 至 是 物理 学 中 他 专长 之 外 的 领域 ， 提 供 良 好 的 建议 。 但 是 ， 只 
要 数据 集 足 够 大 ， 能 够 涵盖 全 部 的 潜在 输入 ， 网 络 对 新 输入 进行 的 汉化 
操作 ， 结 果 应 该 也 是 不 错 的 。 在 实践 中 ， 人 们 倾 问 于 使 用 类 比 ， 从 比较 
熟悉 的 领域 推广 到 新 的 领域 ,但 如 有 果 两 个 领域 存在 本 质 上 的 不 同 ， 这 样 
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训练 一 个 网 络 来 检测 草坪 上 的 杂 草 是 非常 实用 的 。 但 是 怎么 定义 杂 草 


Ug? 一 个 人 认为 是 杂 草 ， 在 另 一 个 人 看 来 可 能 是 野花 。 分 类 是 一 个 反应 
文化 偏见 的 更 宽泛 的 问题 。 用 于 训练 网 络 的 数据 集 加 剧 了 这 种 不 确定 
性 。 例 如 ， 有 许多 公司 为 执法 机 构 提 供 基于 面部 识别 的 犯罪 分 子 识别 系 
统 。 黑 人 面部 识别 中 出 现 的 假 阳性 误 判 比 白 人 面孔 多 ， 因 为 用 于 训练 网 
络 的 数据 库 中 有 更 多 的 白人 面孔 ， 你 拥有 的 数据 越 多 ， 准 确 率 就 越 高 。 
[27] 数据 库 偏 差 可 以 通过 重新 平衡 数据 来 纠正 ， 但 不 可 避免 地 会 存在 隐 
藏 的 偏 傅 ， 这 取决 于 数据 的 来 源 以 及 被 用 来 做 出 什么 样 的 决定 。 [28] 


另 一 个 反对 依赖 神经 网 络 的 理由 是 ， 人 们 可 能 会 以 公平 为 代价 来 优 
化 利润 。 例 如 ， 如 果 未 被 充分 代表 的 少数 群体 中 的 人 去 申请 住房 抵押 贷 
款 ， 而 已 接受 过 数 百 万 次 申请 培训 的 神经 网 络 拒绝 了 该 申请 。 对 网 络 的 
输入 包括 当前 地 址 ， 以 及 与 少数 群体 高 度 相关 的 其 他 信息 。 因 此 ， 即 使 
有 反对 明确 歧视 少数 群体 的 法 律 ， 该 网 络 也 可 能 会 利用 这 些 信息 来 暗中 
歧视 他 们 。 这 里 的 问题 不 在 于 神经 网 络 ， 而 在 于 我 们 让 它 优化 的 代价 画 
数 。 如 果 利润 是 唯一 的 目标 ， 网 络 就 会 使 用 被 提供 的 任何 信息 来 最 大 化 
利润 。 解 决 这 个 问题 的 方法 是 将 公平 性 作为 代价 画 数 中 的 一 个 参数 。 虽 
然 最 佳 解决 方案 是 在 利润 和 公平 之 间 找到 一 种 明智 的 平衡 ， 但 必须 在 代 
价 画 数 中 明确 这 种 平衡 ， 这 就 需要 有 人 决定 如 何 权 衡 每 个 目标 的 重要 
性 。 那 些 人 文 和 社会 科学 领域 的 伦理 观点 应 该 为 这 些 权 衡 提 供 指导 。 但 
我 们 必须 时 刻 牢 记 ， 选 择 一 个 看 似 公平 的 代价 画 数 可 能 会 产生 意 想不到 
的 后 果 。 [29] 


伊 隆 : 马 斯 克 、 斯 蒂 芬 . 才 金 以 及 立法 者 和 研究 人 员 ， 都 曾 呼 吁 对 人 工 
智能 进行 规范 。2015 年 ，3722 位 人 工 智能 和 机 器 人 研究 人 员 共 同 签署 了 
一 封 公开 信 ， 呼 吁 禁止 使 用 自动 武器 : 


综 上 所 述 ， 我 们 认为 人 工 智能 在 很 多 方面 都 具有 造福 人 类 的 巨大 
潜力 ， 这 也 应 该 是 该 领域 的 目标 。 但 开始 人 工 智能 军备 竞赛 不 是 一 个 
好 主意 ， 应 该 通过 法 令 茜 止 超出 人 类 合理 控制 范围 的 目 动 攻击 性 武 
ge o [30] 
at 


这 一 禁令 本 意 是 好 的 ,但 也 可 能 适得其反 。 并 非 所 有 国家 都 会 遵循 
禁令 。 俄 罗斯 总 统 普 泵 束 曾 发 表 过 这 样 的 言论 : 


人 工 智能 是 未 来 ， 不 仅 对 俄罗斯 来 说 是 这 样 ， 对 全 人 类 也 是 一 
样 。 它 带 来 了 巨大 的 机 会 ， 但 也 会 带 来 难以 预测 的 威胁 。 无 论 谁 成 为 
这 个 领域 的 领导 者 ， 都 将 统治 全 世界 。 [31] 


全 面 禁令 的 问题 在 于 人 工 智能 不 是 一 个 孤立 的 领域 ， 而 是 一 个 拥有 
许多 不 同 工 具 和 应 用 的 领域 ， 其 中 每 一 样 都 会 产生 不 同 的 结果 。 例 如 ， 
信用 评分 的 自动 化 是 机 器 学 习 在 20 世 纪 80 年 代 的 早期 应 用 。 有 人 担心 ， 
如 果 他 们 碰巧 住 在 声誉 不 好 的 社区 内 ， 就 会 得 到 不 公正 的 评分 。 这 就 催 
生出 了 对 用 于 计算 分 数 的 信息 进行 限制 的 法 律 规定 ， 并 要 求 公司 通知 个 
人 如 何 提高 分 数 。 每 个 申请 都 存在 不 同 的 问题 ， 最 好 根据 具体 情况 进行 
处 理 ， 而 不 是 盲目 禁止 相关 研究 。 [22] 


1987 年 学 术 休 假期 间 ， 我 拜访 了 索 尔 元 人 研究 所 的 弗朗西斯 :元 里 元 ， 
那 会 儿 我 在 加 州 理 工学 院 担任 神经 生物 学 Cornelis Wiersma 客 座 教 授 。 弗 
庆 西 斯 当时 正在 建立 一 个 实力 雄厚 的 视觉 研究 小 组 ， 这 是 我 特别 感 兴趣 
的 研究 题目 之 一 。 我 在 教员 午餐 时 间 演 示 了 我 的 话语 网 络 样 带 ， 引 发 了 
热烈 的 讨论 。 我 在 1989 年 搬 到 拉 傈 亚 ， 这 标志 着 我 从 约翰 , 截 普 金 斯 大 学 
的 初级 教员 转变 为 索 尔 克 人 研究 所 的 高 级 教员 ， 真 令 人 兴奋 。 几 平 在 一 夜 
之 间 ， 很 多 机 会 都 向 我 敞开 了 怀抱 ， 其 中 包括 霍华德 . 休 斯 医 学 研究 所 

(Howard Hughes Medical Institute) 的 一 项 任命 ， 该 机 构 为 我 26 年 的 研究 
提供 了 慷慨 的 文 持 。 

1989 年 加 入 加 州 大 学 圣迭戈 分 校 时 ， 我 遗憾 地 发 现 ， 那 位 教授 我 们 
反问 传播 理论 的 大 卫 : 鲁 姆 哈 特 已 经 去 了 斯 坦 福 大 学 ， 在 那 之 后 我 很 少 有 
机 会 再 见 到 他 。 多 年 来 ， 我 注意 到 大 卫 的 行为 方式 发 生 了 令 人 不 安 的 变 
化 。 最 终 ， 他 被 诊断 患 有 额 里 时 痴呆 一 一 患者 大 脑 的 额 叶 皮层 中 的 神经 
元 会 逐渐 流失 ， 对 他 的 性 格 、 行 为 和 语言 造成 影响 。2011 年 ， 鲁 姆 哈 特 
在 他 68 罗 时 去 世 了 ， 那 时 他 已 经 认 不 出 家 人 或 朋友 了 。 
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到 了 2000 年 ， 目 20 世 纪 80 年 代 兴 起 的 神经 网 络 热 潮 已 经 退去 ， 神 
经 网 络 再 次 成 为 常规 科学 。 托 马 斯 : 库 恩 (Thomas Kuhn) 曾 将 科学 革 
命 之 间 的 时 间 间 隔 摘 述 为 ， 科 学 家 在 一 个 已 经 确定 的 范式 或 解释 框架 
内 进行 理论 推定 、 观 察 和 试验 的 常规 工作 阶段 。[ 革 19874, WA E 
茸 顿 去 了 多 伦 多 大 学 ， 并 继续 着 渐进 式 改 进 ， 虽 然 这 些 改进 都 没有 像 
曾经 的 玻 尔 效 曼 机 那样 展现 出 魔力 。 溯 顿 在 21 世 纪 头 十 年 成 为 加 拿 大 
高 等 研究 院 (Canadian Institute for Advanced Research， 人 简称 CIFAR) 神 
经 计算 和 目 适 应 感知 项 目 ( Neural Computation and Adaptive 
Perception ， 人 简称 NCAP) 的 带头 人 。 该 项 目 由 来 自 加 拿 大 和 其 他 国家 
的 约 25 位 研究 人 员 组 成 ， 专 注 于 解决 机 器 学 习 的 难题 。 我 是 由 杨 立 昆 
担任 主语 的 NCAP 顾 问 委 员 会 的 成 员 ， 会 在 每 年 NIPS 会 议 召 开 之 前 参加 
该 项 目的 年 会 。 神 经 网 络 的 先驱 们 在 缓慢 而 稳定 的 过 程 中 探索 了 机 器 
学 习 的 许多 新 策略 。 虽 然 他 们 的 网 络 有 许多 有 价值 的 应 用 ， 但 却 一 直 
没有 满足 20 世 纪 80 年 代 对 该 领域 抱 有 的 很 高 的 期 望 。 不 过 这 并 没有 动 
摇 先 张 者 们 的 信念 。 回 想起 来 ， 他 们 一 和 直 是 在 为 飞跃 性 的 突破 黄 定 基 
fii ° 


机 研学 习 的 稳步 发 展 


NIPS 会 议 是 20 世 纪 80 年 代 神 经 网 络 的 孵化 右 ， 为 其 他 可 处 理 大 型 
高 维 数据 集 的 算法 打开 了 大 门 。 弗 拉 基 米尔 ' 瓦 普 尼 死 的 文 持 向 量 机 于 
1995*E 5] T 3&9], J201 AC COTE CL LEE FF RJ n P328 T RE T — 


个 新 篇 章 。 使 支持 向 量 机 成 为 功能 强大 的 分 类 器 ， 并 出 现在 每 个 神经 
网 络 工作 者 工具 包 中 的 ， 是 “内 核 技 巧 ”(kernel trick) ， 这 是 一 种 数学 
转换 ， 相 当 于 将 数据 从 其 采样 空间 重新 映射 到 使 其 更 容易 被 分 离 的 超 
空间 。 托 马 索 : 波 吉 奥 开发 了 一 种 名 为 ‘HMAX” 的 分 级 网 络 ， 可 以 对 有 
限 数 量 的 对 象 进行 分 类 。 [2] 这 表明 ， 网 络 的 性 能 会 随 着 其 深度 的 增加 
而 提高 。 

在 21 世 纪 的 头 几 年 里 ， 图 形 模 型 被 开发 出 来 ， 并 与 被 称 为 “ 贝 叶 斯 
网 络 ” (Bayes networks) 的 丰富 的 概率 模型 相 结合 ， 后 者 是 基于 18 世 纪 
英国 数学 家 托马斯 : 贝 叶 斯 (Thomas Bayes) 提出 的 一 个 定理 ， 该 定理 
允许 使 用 新 的 证 据 来 更 新 先前 的 信念 。 加 州 大 学 洛杉矶 分 校 的 朱 迪 亚 : 
珀 尔 ， 在 早 些 时 候 曾 将 基于 贝 叶 斯 分 析 的 “信念 网 络 ” (belief 
networks) [3] 引入 人 工 智能 ， 通 过 开发 能 够 利用 数据 在 网 络 中 学 习 概 
率 的 方法 ， 对 贝 叶 斯 分 析 进 行 了 加 强 和 扩展 。 这 些 网 络 以 及 其 他 网 络 
的 算法 为 机 器 学 习 研 究 人 员 打 造 出 了 强大 的 工具 。 


随 着 计算 机 的 处 理 能 力 继续 呈 指 数 增 长 ， 训 练 更 大 规模 的 网 络 成 
为 可 能 。 大 家 曾 普遍 认为 ， 具 有 更 多 隐藏 单元 、 更 宽 的 神经 网 络 ， 比 
具有 更 多 层 数 、 更 深 的 网 络 的 效果 更 好 ， 但 是 对 于 逐 层 训练 的 网 络 来 
说 并 非 如 此 ， [4 并 且 误 差 梯度 的 消失 问题 (the vanishing error 
gradient problem) 被 发 现 减 慢 了 输入 层 附 近 的 学 习 速度 。[3] 然而 ， 当 
这 个 问题 最 终 被 克服 的 时 候 ， 我 们 已 经 可 以 对 深度 反 向 传播 网 络 进行 
训练 了 ， 而 且 该 网 络 在 基准 测试 中 表现 得 更 好 。 [6] 随 着 深度 反 向 传播 
网 络 开始 在 计算 机 视觉 领域 挑战 传统 方法 ，2012 年 的 NIPS 大 会 上 出 现 
了 这 样 一 句 话 : “神经 信息 处 理 系统 ”里 的 “神经 ”又 回来 了 。 


在 20 世 纪 的 最 后 10 年 以 及 21 世 纪 前 10 年 的 计算 机 视觉 领域 ， 在 识 
别 图 像 中 的 对 象 方面 取得 的 稳步 进展 ， 使 得 基准 测试 (用 于 比较 不 同 
方法 ) 的 性 能 每 年 能 提高 百 分 之 零 点 几 。 方 法 改进 的 速度 十 分 缓慢 ， 
这 是 因为 每 个 新 类 别 的 对 象 ， 都 需要 有 关 专 家 对 能 够 将 它们 与 其 他 对 
象 区 分 开 来 所 需 的 与 姿态 无 天 的 特征 进行 甄别 。 随 后 ， 在 2012 年 ， 杰 


Jb ELSE BIURVILHS BA 4 5 5E 37] et 96 PRAE (Alex Krizhevsky) 
ALF AB Me ip FFT AL AE [A] NIPS WHE AS VEC, AR AER ESA T] 
训练 AlexNet 识 别 图 像 中 的 对 象 ，AlexNet 是 本 章 要 重点 讨论 的 深度 卷 积 
网 络 。 IZ) 以 拥有 22 000 多 个 类 别 ， 超 过 1 500 万 个 标记 过 的 高 分 辩 率 图 
像 的 ImageNet 数 据 库 作为 基准 ，AlexNet 史 无 前 例 地 将 识别 错误 率 降 低 
到 了 18% ° l8] 这 次 性 能 上 的 飞跃 在 计算 机 视觉 社区 中 掀起 了 一 股 冲击 
波 ， 加 速 推动 了 更 大 规模 网 络 的 发 展 ， 现 在 这 些 网 络 儿 乎 已 经 达到 了 
人 类 的 水 平 。 到 2015 年 ，ImageNet 数 据 库 的 错误 率 已 降 至 3.6%。 [9] 当 
时 还 在 微软 研究 院 的 何 恺 明 及 其 同事 使 用 的 低 错 误 率 深度 学 习 网 络 ， 
在 许多 方面 都 与 视觉 皮层 十 分 相似 ， 这 类 网 络 由 杨 立 昆 最 早 提 出 ， 并 
最 初 把 它 全 名 为 “Le Net” ° 
20 世 纪 80 年 代 ， 杰 弗 里 : 辛 顿 和 我 第 一 次 见 到 这 个 法 国学 生 杨 立 昆 

( 见 图 9-1， 右 ) 。 他 9 岁 时 ， 就 深 受 1968 年 史诗 级 的 科幻 电影 《2001 
太空 漫游 》 (2001: A Space Odyssey ) 中 的 任务 计算 机 HAL 9000 的 启 
发 ， 想 要 开发 人 工 智 能 。 他 曾 独 立 发 明了 反 向 传播 误差 算法 的 一 种 版 
本 ， 并 记录 在 他 1987 年 的 博士 论文 中 ， H 之 后 他 就 搬 到 多 伦 多 ， 加 
入 了 杰 弗 里 的 团队 。 后 来 ， 他 转 去 了 美国 电话 电报 公司 (AT&T) 在 新 
泽 西 州 霍 姆 德尔 (Holmdel) 的 贝尔 实验 室 ， 在 那里 他 创造 了 一 个 可 以 
读 取信 件 上 的 手写 邮政 编码 的 网 络 ， 采 用 修订 的 美国 国家 标准 与 技术 
人 研究 院 (Modified National Institute of Standards and Technology， 人 简称 
MNIST) 数据 库 作 为 一 种 标记 数据 基准 。 每 天 有 数 百 万 封 信 件 需 要 递 
送 到 信箱 里 ;而 今天 ， 这 个 过 程 是 完全 目 动 化 的 。 同 样 的 技术 也 可 以 
用 来 目 动 读 取 ATM 机 上 银行 文 票 的 金额 %。 有 趣 的 是 ， 最 难 的 部 分 其 实 
是 查找 文 票 上 数字 的 位 置 ， 因 为 每 张 文 票 都 有 不 同 的 格式 。 早 在 20 世 
纪 80 年 代 ， 杨 立 昆 就 显露 出 了 证 明 原 理 〈 学 者 们 擅长 的 事情 ) 并 将 之 
应 用 在 现实 世界 中 的 非凡 天 赋 。 后 者 要 求实 际 产 品 必 须 经 过 严格 的 测 
试 ， 且 表现 稳健 。 
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图 9-1 术 弗 里 . 辛 顿 和 杨 立 昆 是 深度 学 习 领 域 的 大 师 。 这 张 照片 是 2000 年 左右 在 加 拿 大 高 等 研究 
院 的 神经 计算 和 自 适 应 感知 项 目 会 议 上 拍摄 的 ， 该 项 目 是 深度 学 习 领 域 的 久 化 器 。 图 片 来 源 : 
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苍 积 网 络 的 渐进 式 改 进 


杨 立 昆 在 2003 年 去 了 纽约 大 学 后 ， 仍 继续 开发 他 的 视觉 网 络 ， 现 
在 被 称 为 卷 积 网 络 (ConvNet) ”( 见 图 9-2) 。 这 个 网 络 的 基本 结构 是 
基于 卷 积 的 ， 卷 积 可 以 被 想象 成 一 个 小 的 滑动 滤波 器 ， 在 滑 过 整 张 图 
像 的 过 程 中 创建 一 个 特征 层 。 例 如 ， 过 滤器 可 以 是 一 个 定向 边缘 检测 
器 ， 束 像 第 5 章 中 介绍 的 那样 ， 只 有 当 窗 口 对 准 图 像 中 具有 正确 方向 或 
纹理 的 对 象 的 边缘 时 ， 才 会 产生 大 数值 输出 。 尽 管 第 一 层 上 的 窗口 只 
征 图 像 中 的 一 小 块 区 域 ， 但 由 于 可 以 有 多 个 滤波 郁 ， 因 此 在 每 个 铭 块 
中 都 能 得 到 许多 符 征 信息 。 第 一 层 中 与 图 像 卷 积 的 滤波 器 ， 与 大 卫 : 休 
伯 尔 和 托 斯 坦 : 威 泽 尔 在 初级 视觉 皮层 中 发 现 的 “简单 细胞 ”类 似 ( 见 图 


9-3) 。 LLL sgg ctr p cR EE et e Be E may 12) 在 
疮 积 网 络 的 早期 版 本 中 ， 每 个 滤波 右 的 输出 部 要 通过 一 个 非 线 性 的 
Sigmoid 函 数 (输出 从 0 平稳 地 增加 到 1) ， 这 样 可 以 抑制 弱 激 活 单元 的 
输出 〈 见 方 框 7.2 中 的 Sigmoid 函 数 ) 。 第 二 层 接收 来 自 第 一 层 的 输入 ， 
第 二 层 的 窗口 覆盖 了 更 大 的 视野 区 域 ， 这 样 经 过 多 层 之 后 ， 殊 会 存在 
一 些 能 接收 整个 图 像 输入 的 单元 。 这 个 最 顶层 束 类 似 于 视觉 层级 的 顶 
屋 ， 在 灵 长 类 动物 中 被 称 为 “下 旗 叶 皮 层 *"， 并 且 具 有 和 窗 盖 大 部 分 视野 的 
感受 野 。 接 着 ， 顶 层 的 单元 补 送 入 分 类 层 ， 与 其 中 的 所 有 分 类 单元 连 
接 ， 再 采用 反 向 传播 误差 的 方式 训练 整个 网 络 ， 对 图 像 中 的 对 象 进行 
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图 9-2 视觉 皮层 与 卷 积 网 络 在 图 像 对 象 识别 上 的 比较 。 (上 图 ) (a, b) 视觉 皮层 中 的 层级 结 
构 ， 从 视网膜 输入 到 初级 视觉 皮层 (V1) ， 经 过 丘脑 (RGC, LGN) 到 下 显 叶 皮层 (PIT, 
CIT, AIT) ， 展 示 了 视觉 皮层 区 域 和 卷 积 网 络 中 层次 的 对 应 关系 。 (FA) (0). 左 侧 图 像 作 
为 输入 映射 到 第 一 个 卷 积 层 ， 后 者 由 几 个 特征 平面 组 成 ， 每 个 特征 平面 代表 一 个 滤波 器 ， 类 似 
在 视觉 皮层 中 发 现 的 定向 简单 单元 。 这 些 滤波 器 的 输出 经 过 病 值 处 理 并 汇集 到 第 一 层 ， 再 进行 
归 一 化 处 理 ， 以 便 在 小 块 区 域 中 产生 不 变 的 响应 ， 类 似 于 视觉 皮层 中 的 复杂 细胞 (图 中 方 框 : 
线性 一 非 线 性 层 中 的 操作 ) 。 以 上 操作 在 网 络 的 每 个 卷 积 层 上 重复 。 输 出 层 与 来 目 上 一 个 卷 积 
层 的 全 部 输入 具有 全 面 的 连接 (每 个 输出 单元 都 有 上 一 层 全 部 单元 的 输入 ) 。 图片 来 源 : 
Yamins and DiCarlo, “Using Goal-Driven Deep Learning Models to Understand Sensory Cortex”, 
figure 1 ° 
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图 9-3 卷 积 网 络 第 一 层 的 滤波 器 。 每 个 滤波 器 都 作用 于 视野 中 的 一 小 块 图 像 区 域 。 顶 部 三 排 中 
滤波 器 的 优选 刺激 像 视觉 皮层 中 的 简单 细胞 一 样 具有 定向 性 。 底 部 三 排 显示 的 优选 刺激 经 过 了 
扩展 ， 并 具有 复杂 的 形状 。 图 片 来 源 : Krizhevsky, Sutskever and Hinton, *ImageNet 
Classication with Deep Convolutional Neural Networks”, figure 3° 


卷 积 网 络 多 年 来 一 直 在 经 历 许 多 渐进 式 改 进 。 一 个 重要 的 补充 ， 
是 将 一 个 区 域 上 的 每 个 特征 聚合 起 来 ， 叫 作 * 池 化 ”(pooling) 。 这 种 
操作 提供 了 一 种 平移 不 变性 (translation invariance) 的 量度 ， 类 似 于 由 
休 伯 尔 和 威 泽 尔 在 初级 视觉 皮层 中 发 现 的 复杂 细胞 ， 能 够 通过 一 个 图 
块 对 整个 视野 中 相同 方向 的 线 做 出 啊 应 。 男 一 个 有 用 的 操作 是 增益 归 
一 化 (gain normalization) ， 就 是 调整 输入 的 放大 倍数 ， 使 每 个 单元 都 
在 其 操作 范围 内 工作 ， 在 皮层 中 是 通过 反馈 抑制 (feedback inhibition) 
实现 的 。Sigmoid 输 出 函数 也 被 线性 整流 函数 (rectified linear units, ff 
称 ReLUs) 取代 。 在 输入 达到 一 个 靖 值 之 前 这 些 单 元 的 输出 都 为 零 ， 超 
过 靖 值 之 后 则 输出 和 输入 呈 线 性 增长 。 该 操作 的 优点 在 于 : 低 于 国信 
的 单元 被 有 效 地 排除 在 网 络 外 ， 这 更 接近 真实 神经 元 中 靖 值 的 作用 。 


卷 积 网 络 的 每 一 个 性 能 的 改进 ， 其 背后 部 有 一 个 工程 师 可 以 理解 
的 计算 理由 。 但 有 了 这 些 变 化 ， 它 越 来 越 接 近 20 世 纪 60 年 代 我 们 所 了 
解 的 视觉 皮层 的 体系 结构 ， 尽 管 当时 我 们 只 能 去 猜测 简单 和 复杂 单元 
的 功能 是 什么 ， 或 者 层级 结构 顶部 的 分 布 式 表征 的 存在 意味 着 什么 。 
这 说 明了 生物 学 与 深度 学 习 之 间 存 在 相得益彰 的 共生 关系 的 潜力 。 
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时 也 研究 神经 哲学 。 [13] 知识 最 终 取 决 于 大 脑 如 何 表达 知识 的 说 法 ， 
显然 没有 人 阻止 哲学 家 认为 知识 是 独立 于 世界 而 存在 的 一 种 东西 ， 用 
伊 曼 努 尔 :康德 (Immanuel Kant) 的 话 来 说 ， 就 是 “Ding an sich” (WE 
身 ) 。 但 同样 清楚 的 是 ， 如 果 我 们 (和 其 他 动物 一 样 ) 要 在 现实 世界 
中 生存 ， 背 景 知 识 就 是 必 不 可 少 的 。 经 过 训练 的 多 层 神 经 网 络 的 隐藏 
单元 之 间 的 活动 模式 ， 与 被 逐次 记录 下 的 大 量 生物 神经 之 间 的 活动 模 
式 存在 显著 的 相似 性 。 受 到 这 种 相似 性 的 驱动 ， 帕 特 里 夏 和 我 在 1992 
年 编写 了 《计算 脑 》 (The Computational Brain) 一 书 ， 为 基于 大 量 神 
经 元 的 神经 科学 研究 开发 了 一 个 概念 框架 。 M (该 书 现在 已 经 出 到 
第 二 版 了 ， 如 果 你 想 更 多 地 了 解 大 脑 式 的 运算 ， 这 会 是 一 本 很 好 的 入 
门 参考 。) 麻 省 理工 学 院 的 詹姆斯 - 狄 卡 罗 (James DiCarlo) 最 近 比 较 
了 猴子 视觉 皮层 层级 结构 中 不 同 神经 元 和 深度 学 习 神 经 网 络 中 的 单 
元 ， 训 练 它们 识别 相同 图 片 中 的 对 象 ， 分 别 观 察 它 们 的 响应 ( 见 图 9- 
2) 。[13] 他 得 出 结论 ， 深度 学 习 网 络 中 每 层 神经 元 的 统计 特性 ， 与 皮 
层 层 级 结构 中 神经 元 的 统计 特性 非常 接近 。 


深度 学 习 网 络 中 的 单元 与 猴子 视觉 皮层 中 神经 元 性 能 存在 相似 
性 ,但 其 原因 仍然 有 每 录 究 ， 尤 其 古 考 处 到 猴子 的 大 脑 不 太 可 能 使 用 
有 反 向 传播 方式 来 进行 学 习 。 反 疝 传 播 需要 将 详细 的 错误 信号 反馈 给 神 
经 网 络 每 层 中 的 每 个 神经 元 ， 其 精度 比 生物 神经 网 络 中 已 知 反 馈 连 接 
的 精度 要 高 得 多 。 但 其 他 学 习 算 法 在 生物 学 上 似乎 更 合理 ， 例 如 玻 尔 
效 曼 机 学 习 算 法 ， 该 算法 使 用 了 已 经 在 皮层 中 被 发 现 的 赫 布 突 触 可 逆 
性 。 这 引出 了 一 个 有 趣 的 问题 ， 是 否 存在 一 种 深度 学 习 的 数学 理论 ， 
能 够 适用 于 一 大 类 学 习 算法 (包括 皮层 中 的 那些 ， 呢 ? 在 第 7 章 中 ， 我 
所 到 了 对 视觉 层级 结构 的 上 属 分 类 表面 的 分 机 ， 其 决策 表面 比 更 低层 
级 的 表面 更 平坦 。 对 决策 表面 的 几何 分 析 可 能 会 引出 对 深度 学 习 网 络 
和 大 脑 更 深入 的 数学 理解 。 


深度 学 习 神 经 网 络 的 一 个 优点 是 ， 我 们 可 以 从 网 络 中 的 每 个 单元 
提取 “记录 ”， 并 追踪 信息 流 从 一 层 到 另 一 层 的 转变 。 然 后 可 以 将 分 析 这 
种 网 络 的 策略 用 于 分 析 大 脑 中 的 神经 元 。 关 于 技术 的 一 个 奇妙 之 处 在 
于 ,技术 背后 通常 都 有 一 个 很 好 的 解释 ， 并 且 有 强烈 的 动机 来 得 到 这 
种 解释 。 第 一 台 蒸 汽 发 动机 是 由 工程 师 根 据 他 们 的 直觉 建造 的 ， 解 释 
发 动机 如 何 工作 的 热力 学 理论 随后 出 现 ， 并 且 帮 助 提 升 了 发 动机 的 效 
率 。 物 理学 家 和 数学 家 对 深度 学 习 网 络 的 分 析 也 正在 顺利 进行 着 。 


有 工作 记忆 的 神经 网 络 


自 20 世 纪 60 年 代 以 来 ， 神 经 科学 已 经 走 过 了 漫长 的 道路 ， 从 我 们 
目前 对 大 脑 的 了 解 中 可 以 获得 很 多 东西 。1990 年 ， 帕 特 里 夏 高 德 曼 - 拉 
Zi» (Patricia Goldman-Rakic) 训练 了 一 只 猴子 来 记 住 一 个 地 点 ， 作 为 
提示 ， 该 地 点 会 短暂 地 被 一 蔓 灯 照 亮 ， 她 还 训练 这 只 猴子 在 一 段 时 间 
的 延迟 之 后 ， 把 眼睛 移动 到 被 记 住 的 地 点 。 【16] 在 记录 了 猴子 前 额 叶 
皮层 的 活动 后 ， 她 在 报告 中 提 到 ， 一 些 最 初 对 提示 做 出 回应 的 神经 元 
在 延迟 期 间 仍然 保持 活跃 状态 。 心 理学 家 把 人 类 的 这 种 活动 称 为 “工作 
记忆 ”， 也 正 因为 有 了 工作 记忆 ， 我 们 在 执行 任务 (比如 拨打 电话 号 
码 ) 时 ， 能 够 记 住 7+2 项 内 容 。 


传统 的 前 馈 网 络 将 输入 传 到 网 络 中 ， 一 次 传播 一 层 网 络 。 结 合 工 
作 记 忆 ， 可 以 使 后 续 的 输入 与 之 前 的 输入 在 网 络 中 留 下 的 痕迹 进行 交 
互 。 例 如 ， 把 法 语句 子 翻译 成 英文 时 ， 网 络 中 的 第 一 个 法 语 单词 会 影 
响 后 续 英 语 单词 的 顺序 。 在 网 络 中 实现 工作 记忆 的 最 简单 方法 ， 是 添 
加 人 类 皮层 中 常见 的 循环 连接 。 神 经 网 络 中 某 一 层 内 的 循环 连接 和 之 
前 那些 层 的 反馈 连接 ， 使 得 输入 的 时 间 序 列 可 以 在 时 间 上 整合 起 来 。 
这 种 网 络 在 20 世 纪 80 年 代 被 探索 并 广泛 应 用 于 语音 识别 。 (LZ) 在 实践 
中 ， 它 在 具有 短程 依赖 性 的 输入 方面 效果 很 好 ， 但 当 输 入 之 间 的 时 间 


间隔 很 长 ， 输 入 的 影响 会 随 着 时 间 的 推移 发 生 衰 减 ， 网 络 性 能 就 会 变 
5E o 
199755, R-E IF (Sepp Hochreiter) 和 尤 尔 根 - 施 密 德 胡 博 
(Jürgen Schmidhuber) 找到 了 一 种 方法 来 克服 衰变 问题 ， 他 们 称 之 
为 “长 短期 记忆 ” (long short-term memory， 简 称 LSTM) © [18] 默认 情 
况 下 ， 长 短期 记忆 会 传递 原始 信息 ， 而 不 会 发 生 衰减 (这 就 是 猴子 前 
额 叶 皮层 的 延迟 期 中 发 生 的 事情 ) ， 并 且 它 也 有 一 个 复杂 的 方案 来 决 
定 如 何 将 新 的 输入 信息 与 日 信息 整合 。 于 是 ， 远 程 依赖 关系 可 以 被 选 
择 性 地 保留 。 神 经 网 络 中 这 种 工作 记忆 版 本 沉寂 了 长 达 20 年 之 久 ,， 直 
到 它 在 深度 学 习 网 络 中 再 次 被 唤醒 和 实现 。 长 短期 记忆 和 深度 学 习 的 
结合 在 许多 依赖 输入 输出 序列 的 领域 都 取得 了 令 人 瞩目 的 成 功 ， 例 如 
电影 、 音 乐 、 动 作 和 语言 。 


施 密 德 胡 博 是 位 于 瑞士 南部 提问 诺 州 (Ticino) 曼 诺 小 镇 的 Dalle 
Molle 人 工 智 能 研究 所 的 联合 主任 。 该 小 镇 靠近 阿尔 插 斯 山 ， 周 围 有 一 
些 绝 佳 的 徒步 地 点 。 [19] 神经 网 络 领域 的 这 位 颇具 创造 性 、 特 立 独行 
的 * 罗 德 尼 . 丹 泽 菲 尔 德 ” [20] 相信 他 的 创造 力 并 没有 得 到 足够 的 赞誉 。 
因此 ， 在 蒙特 利 尔 举办 的 2015 年 NIPS 会 议 的 一 次 小 组 讨论 会 上 ， 他 再 
次 向 与 会 人 员 介绍 了 自己 , “我 ， 施 密 德 胡 博 ， 又 回来 了 ”。 而 在 巴塞 罗 
那 举行 的 2016 年 NIPS 大 会 上 ， 他 因 培 训 宣讲 人 没有 对 自己 的 想法 给 
足够 的 关注 ， 而 打 乱 对 方 的 演讲 长 达 5 分 钟 。 


2015 年 ，Kelvin Xu 及 其 同事 在 用 一 个 深度 学 习 网 络 识别 图 像 中 对 
象 的 同时 ， 还 连接 了 一 个 长 短期 记忆 循环 网 络 来 标注 图 片 。 使 用 来 自 
深度 学 习 网 络 第 一 遇 识 别 的 场景 中 所 有 对 象 作 为 输入 ， 他 们 训练 长 短 
期 记忆 循环 网 络 输出 一 串 英 文 单词 ， 能 够 形容 一 个 标注 中 的 场景 CUL 
图 9-4) 。 他 们 还 训练 了 长 短期 记忆 网 络 来 识别 图 像 中 的 位 置 ， 使 其 对 
应 于 标注 中 的 每 个 单词 。 LU 该 应 用 令 人 印象 深刻 的 地 方 在 于 ， 长 短 
期 记忆 网 络 从 未 被 训练 来 理解 标注 中 句子 的 含义 ， 只 是 根据 图 像 中 的 
对 和 象 及 其 位 置 输出 一 个 语法 正确 的 单词 串 。 再 加 上 第 8 章 里 早期 的 话语 


网 络 示例 ， 这 更 加 证 明了 神经 网 络 似乎 对 语言 有 种 茶 和 力 ， 但 其 中 的 
原因 我 们 却 不 得 而 知 。 通 过 分 析 长 短期 记忆 网 络 也 许 会 引出 一 种 新 的 
语言 理论 ， 它 将 阐明 网 络 的 工作 原理 和 上 自然 语言 的 性 质 。 


生成 式 对 抗 网 络 


在 第 7 章 中 ， 玻 尔 效 曼 机 被 当 作 一 个 生成 模型 进行 了 介绍 ， 当 输出 
被 钳制 到 一 个 它 已 训练 识别 的 类 型 中 ， 并 且 其 活动 模式 同 下 渗透 到 和 输 
入 层 时 ， 就 可 以 产生 新 的 输入 样本 。 伊 恩 : 古 德 费 洛 (Ian 
Goodfellow) 、 约 书 亚 :本 吉 奥 (Yoshua Bengio) 和 他 们 在 蒙特 利 尔 大 
学 的 同事 们 表示 ， 可 以 训练 前 馈 网 络 ， 在 对 抗 的 背景 (adversarial 
context) 下 生成 更 好 的 样本 。 [22] 一 个 生成 卷 积 网 络 可 以 通过 尝试 其 
骗 男 一 个 卷 积 神经 网 络 来 训练 生成 优质 的 图 像样 本 ， 后 者 必须 决定 一 
个 输入 的 图 像 是 真实 的 还 是 虚假 的 。 生 成 网 络 的 输出 被 用 来 作为 一 个 
经 过 训练 的 判别 卷 积 网 络 (discriminative convolutional network) 的 输 
入 ， 后 者 只 给 出 一 个 单一 的 输出 : 如果 输入 是 真实 图 像 ， 就 运 回 1， 否 
则 返回 0。 这 两 个 网 络 会 相互 莞 争 。 生 成 网 络 试图 增加 判别 网 络 的 错误 
率 ， 而 判别 网 络 则 试图 降低 上 自身 的 错误 率 。 由 这 两 个 目标 之 间 的 紧张 
关系 产生 的 图 像 ， 拥 有 令 人 难以 置信 的 照片 级 的 真实 感 〈 见 图 9-5) 。 
[23] 


S: 


1. 输入 图 像 2. 卷 积 特征 提取 3. 注意 力 在 图 像 上 的 ”4. 逐 字 生 成 
RNN 


A bird flying Over a body of water 


A woman is throwing a frisbee in a park. A dog is standing on a hardwood floor, 
( 一 个 女人 在 公园 里 扔 飞盘 。) (一 只 狗 站 在 地 板 上 。) 


A little girl sitting on a bed with A group of people sitting on a boat 


a teddy bear. in the water, 
(一 个 小 女孩 拿 着 泰 迪 熊 坐 在 床上 。) (一 群 人 坐 在 船上 。) 


图 9-4 深度 学 习 为 图 片 做 标注 。 顶 部 的 一 组 图 片 说 明了 分 析 照 片 的 步 又 。ConvNet (CNN) 在 
第 一 步 中 标记 了 照片 中 的 对 象 ， 并 将 其 传递 给 循环 神经 网 络 (RNN) 。RNN 被 训练 输出 适当 


的 英文 单词 串 。 底 部 的 四 组 图 片 则 前 明了 进一步 细 化 的 过 程 ， 即 使 用 注意 力 (AES) 来 表示 
照片 中 单词 的 指示 对 象 。 顶 图 来 源 : M. I. Jordan and T. M. Mitchell,“Machine learning: Trends, 
Perspectives, and Prospects,” Science 349, no. 6245(2015): 255-260, 图 2. 底 图 来 源 : Xu etal., 


“Show, Attend and Tell,"2015, rev. 2016, figure1 and 3,https://arxiv.org/pdf/1502.03044.pdf, Coutesy 
of Kelvin Xu ? 


别 丰 了 ， 这 些 生 成 的 图 像 是 合成 的 ， 它 们 中 的 对 象 并 不 存在 。 它 
们 是 训练 集中 未 标记 图 像 的 泛 化 版 本 。 请 注意 ， 生 成 式 对 抗 网 络 是 无 
监督 的 ， 这 使 得 它们 可 以 使 用 无 限 的 数据 。 这 些 网 络 还 有 许多 其 他 应 
用 ， 包 括 清除 具有 超 高 分 辨 率 的 星系 天 文 图 片 [的 | 中 的 噪声 ， 以 及 学 
习 表达 富有 情感 的 言语 。 [29] 


通过 慢 慢 地 改变 生成 式 网 络 的 输入 向 量 ， 有 可 能 逐渐 改变 图 像 ， 
得 部 件 或 零碎 物品 (如 窗户 ) 逐渐 显现 或 变 成 其 他 物体 und 
iE) 。 [26] 更 值得 关注 的 是 ， 有 可 能 通过 添加 和 减 去 表示 网 络 状态 的 
向 量 以 获得 图 像 中 对 象 的 混合 效果 ， 如 图 9-6 所 示 。 这 些 实验 的 意义 在 
于 ， 生 成 网 络 对 图 像 中 空间 的 表征 ， 正 如 我 们 如 何 描述 场景 的 各 个 组 
成 部 分 。 这 项 技术 正在 迅速 发 展 ， 其 下 一 个 前 沿 领域 是 生成 逼真 的 电 
影 。 通 过 训练 一 个 反复 演绎 的 生成 式 对抗 网 络 ， 与 类 似 玛丽 莲 . 梦 露 这 
样 的 演员 参 演 的 电影 进行 对 比 ， 应 该 有 可 能 创造 出 已 过 世 的 演员 出 演 
的 新 作品 。 


HE 


ant ( 蚂蚁 ) 


"d ve 


volcano (火山 ) 


图 9-5 生成 式 对 抗 网 络 (GAN) 。 顶部 的 示意 图 展示 了 一 个 卷 积 网 络 ， 用 于 生成 一 组 样本 图 
象 ， 经 过 训练 后 可 以 欺骗 判 别 卷 积 网 络 。 左 边 的 输入 是 100 维 的 随机 选取 的 连续 值 向 量 ， 用 来 
生成 不 同 的 图 像 ， 输 入 的 向 量 随后 激活 空间 尺度 未 层 变 大 的 滤波 器 层 。 下 方 的 图 显示 了 通过 训 
练 来 自 单个 类 别 照片 的 生成 式 对 抗 网 络 产 生 的 样本 图 像 。 顶 图 来 源 : A. Radford, L. Metz, and S. 
Chintala, “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial 
Networks,” 图 1, arXiv:1511.06434, https://arxiv.org/pdf/1511.06434.pdf， 由 Soumiyh Chintala 提 供 ; 
底 图 来 源 : A. Nguyen, J. Yosinski, Y. Bengio, A.Dosovitskiy, and J. Clune, “Plug & Play Generative 
Networks: Conditional Iterative Generation of Images in Latent Space,” figure1, https: 
//arxiv.org/pdf/1612.00005.pdf, 由 Ahn Nguyen 提 供 。 
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图 9-6 生成 式 对抗 网 络 中 的 向 量 算法 。 用 面部 图 片 训练 的 生成 式 网 络 的 输入 混合 后 ， 产 生 了 输 
出 (ARB) ， 然 后 通过 添加 或 减 去 选 定 的 输入 向 量 进行 输出 ， 就 创建 出 了 混合 后 的 图 像 CR 
A) 。 因 为 混合 是 在 最 高 的 表征 层 完 成 的 ， 所 以 部 位 和 姿势 是 无 颖 接合 的 ， 并 不 会 经 过 变形 过 
程 中 那样 的 平均 处 理 。 图 像 改 编 自 : A. Radford, L.Metz, and S. Chintala, “Unsupervised 
Representation Learning with Deep Convolutional Generative Adversarial Networks," fifigure7, 
arXiv:1511.06434,https://arxiv.org/pdf/1511.06434/ ° 


这 是 米兰 的 时 装 周 ， 衣 着 光鲜 的 模特 们 带 着 超凡 脱俗 的 表情 在 T 台 
上 走秀 ( 见 图 9-7) 。 时 尚 界 正在 经 历 暗 潮涌 动 : “很 多 工作 正在 消 
失 ，:' 西 尔 维 娅 . 文 图 里 尼 . 芬 过 (Silvia Venturini Fendi) 在 她 的 时 装 秀 开 
场 前 说 道 ，‘ 机 器 人 会 承担 旧 的 工作 ， 但 它们 唯一 无 法 取代 的 就 是 我 们 
的 创造 力 和 思维 。”” 27] 现在 想象 一 下 经 过 训练 的 新 一 代 对 抗 网 络 ， 
它们 可 以 生产 新 款式 和 高 级 时 装 ， 式 样 几乎 无 穷 无 尽 。 时 尚 界 可 能 
处 于 一 个 新 时 代 的 边缘 ， 而 许多 其 他 依赖 创意 的 行业 也 面临 着 相同 的 
处 境 。 


图 9-7 2018 年 米兰 的 乔治 .阿玛尼 春 夏 男 装 秀 。 


应 对 现实 社会 的 复杂 性 


当前 的 大 多 数学 习 算 法 是 在 25 年 前 开发 的 ， 为 什么 它们 需要 那么 
长 的 时 间 才 能 对 现实 世界 产生 影响 呢 ? 20 世 纪 80 年 代 的 研究 人 员 使 用 
的 计算 机 和 标记 数据 ， 只 能 证 明 玩 具 问 题 的 原理 。 尽 管 取得 了 一 些 似 
乎 颇 有 前 景 的 成 果 ， 但 我 们 并 不 知道 网 络 学 习 及 其 性 能 如 何 随 大 单元 
和 连接 数量 的 增加 而 增强 ， 以 适应 现实 世界 问题 的 复杂 性 。 人 工 知 能 
中 的 大 多 数 算法 缩放 性 很 差 ， 从 未 跳出 解决 玩具 级 别 问 题 的 范畴 。 我 
们 现在 知道 ， 神 经 网 络 学 习 的 缩放 性 很 好 ， 随 看 网 络 规模 和 层 数 的 不 
断 增 加 ， 其 性 能 也 在 不 断 增强 。 竺 别 是 反 同 传播 技术 ， 写 的 缩放 性 非 
MAR o 

我 们 应 该 对 此 感到 慰 讶 吗 ? DIC Sz Eo ELSE RS] AA, TE 
灵 长 类 动物 ， 尤 其 是 人 类 中 得 到 了 高 度 发 展 。 随 着 它 的 扩展 ， 更 多 的 
功能 慢 慢 出 现 ， 并 且 更 多 层次 被 添加 到 了 关联 区 域 ， 以 实现 更 高 阶 的 


表征 。 很 少 有 复杂 系统 可 以 实现 如 此 高 级 的 缩放 。 互 联网 是 为 数 不 多 
的 已 经 被 扩大 了 100 万 倍 的 工程 系统 之 一 。 一 旦 通信 数据 包 协 议 建 立 起 
来 ， 互 联网 就 会 开始 进化 ， 正 如 DNA 中 的 遗传 密码 使 细胞 演化 成 为 可 
能 一 样 。 

使 用 相同 的 一 组 数据 训练 许多 深度 学 习 网 络 ， 会 导致 生成 大 量 不 
同 的 网 络 ， 它 们 都 具有 大 致 相同 的 平均 性 能 水 平 。 我 们 想 知 道 的 古 ， 
所 有 这 些 同等 优秀 的 网 络 有 哪些 共同 之 处 ， 而 对 单个 网 络 进行 分 析 并 
不 能 揭示 这 一 点 。 理 解 深度 学 习 原 理 的 另 一 种 方法 是 进一步 探索 学 习 
算法 的 空间 ;我 们 只 在 所 有 学 习 算法 的 空间 中 对 几 个 位 置 进行 了 抽样 
党 试 。 从 更 广泛 的 探索 中 可 能 会 出 现 一 种 学 习 计 算 理 论 ， 该 理论 与 其 
他 科学 领域 的 理论 一 样 深奥 ， !28] 可 能 为 从 自然 界 中 发 现 的 学 习 算 法 
提供 更 多 的 解释 。 


蒙特 利 尔 大 学 的 约 书 亚 . 本 吉 奥 29] ( 见 图 9-8) ， 和 杨 立 昆 一 
起 ， 接 替 杰 弗 里 . 溯 顿 ， 成 为 CIFAR 神 经 计算 和 NCAP 项 目的 主任 ， 该 项 
目 在 通过 十 年 评估 后 更 名 为 “机 器 学 习 和 大 脑 学 习 * 项 目 (Learning in 
Machines and Brains) 。 约 书 亚 率 领 蒙特 利 尔 大 学 的 一 个 团队 ， 和 致力 于 
应 用 深度 学 习 来 处 理 自然 语言 ， 这 将 成 为 “机 器 学 习 和 大 脑 学 习 * 项 目 新 
的 研究 重点 。 在 十 多 年 的 会 议 中 ， 这 个 由 20 多 名 教师 和 人 研究 员 组 成 的 
小 组 开启 了 深度 学 习 的 研究 。 过 去 5 年 来 ， 深 度 学 习 在 过 去 难以 解决 的 
许多 问题 上 取得 了 实质 性 进展 ， 这 些 进展 归功 于 小 组 成 员 的 努力 ， 他 
们 当然 只 是 一 个 更 庞大 社区 中 的 一 小 部 分 人 〈 将 在 第 11 草 探讨 ) 。 


图 9-8 约 书 亚 ;本 吉 奥 是 CIFAR“ 机 器 学 习 和 大 脑 学 习 * 项 目的 联合 主任 。 这 位 在 法 国 出 生 的 加 拿 
大 籍 计 算 机 科学 家 ， 一 直 是 应 用 深度 学 习 处 理 自然 语言 问题 这 个 领域 的 领导 者 。 术 弗 里 . 注 
顿 、 杨 立 昆 和 约 书 亚 : 本 吉 奥 所 取得 的 进展 ， 为 深度 学 习 的 成 功 黄 定 了 基础 。 图 片 来 源 : 约 书 
亚 .本 吉 奥 。 


尽管 深度 学 习 网 络 的 能 力 已 经 在 许多 应 用 中 得 到 了 证 明 ， 但 如 果 
单 靠 自身 ， 它 们 在 现实 世界 中 永远 都 无 法 存活 下 来 。 [30] 它们 受到 了 
研究 者 的 青睐 ， 后 者 为 其 提供 数据 ， 调 整 超 参 数 ， 例 如 学 习 速 度 、 层 
数 和 每 层 中 的 单元 数量 ， 以 改善 收 剑 效果， 还 为 其 提供 了 大 量 计 算 资 
源 。 另 一 方面 ， 如 果 没 有 大 脑 和 身体 的 其 他 部 分 提供 支持 和 自主 权 ， 
大 脑 皮层 也 无 法 在 现实 世界 中 存活 。 在 一 个 不 确定 的 世界 中 ， 这 种 支 
持 和 自主 权 是 一 个 比 模式 识别 更 难 解决 的 问题 。 第 10 章 将 会 介绍 一 种 
古老 的 学 习 算法 ， 它 通过 激励 我 们 寻求 对 自身 有 利 的 经 验 来 帮助 我 们 
在 自然 界 中 生存 。 
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10 
奖励 学 习 


中 世纪 流传 下 来 这 样 一 个 故事 :一 位 统治 者 为 了 感谢 发 明 国 际 象 棋 
的 人 ， 想 要 奖励 他 一 块 麦田 。 发 明 人 人 请求 在 棋盘 的 第 一 格 放 一 六 麦子， 
第 二 格 放 两 粒 ， 第 三 格 放 四 粒 ， 依 次 类 推 ， 剩 余 每 格 都 放 前 一 格 两 倍 的 
麦子 ， 直 到 放 满 64 格 的 棋盘 。 统 治 者 觉得 这 个 请 求 并 不 过 分 ， 束 同意 
了 。 但 实际 上 ， 要 满足 这 一 请 求 ， 统 治 者 不 仅 要 拿 出 他 王国 里 所 有 的 麦 
子 ， 还 要 加 上 全 世界 未 来 儿 百 年 的 麦子 产量 才能 凌 够 ， 因 为 最 后 一 格 要 
放 的 麦 粒 数目 达到 了 264 (大 约 是 1019 ) 。 M 这 被 称 为 “指数 增长 ”。 在 
国际 象棋 和 围棋 游戏 中 ， 棋 副 不 同 布局 状态 的 增长 速度 比 这 个 故事 里 麦 
于 数量 增加 的 速度 还 要 快 得 多 。 在 国际 象棋 中 ， 每 一 步 棋 平 均 都 有 35 种 
摆 法 ， 而 在 围棋 中 ， 分 文系 数 是 250， 这 就 使 得 围棋 的 指数 增长 速度 要 快 


得 多 。 
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游戏 的 好 处 束 在 于 ， 其 规则 都 有 明确 的 定义 ， 玩 家 对 棋盘 十 分 熟 
悉 ， 决 策 也 不 像 现实 世界 中 那样 复杂 ， 但 又 不 失 挑 战 性 。1959 年 ， 在 商 
业 数 字 计 算 机 发 展 的 早期 IBM 的 机 妖 学 习 先 驱 亚 琴 : 塞 比尔 (Arthur 
Samuel) 编写 了 一 个 擅长 玩 国际 跳棋 的 程序 ， 在 宣布 其 诞生 的 当天 ， 
IBM 的 股票 束 获 得 了 巨 大 的 收益 。 西 立 跳 棋 则 相对 容易 。 塞 缘 尔 的 程序 
利用 了 代价 函数 来 评估 对 局 中 不 同 布 阵 的 优 劣 情况 ， 这 一 点 跟 以 前 的 游 
戏 程序 很 相似 。 该 程序 是 在 IBM 第 一 款 真 空 管 商 用 计算 机 IBM 701 上 运行 
的 ， 它 在 一 个 方面 的 创新 令 人 印象 深刻 : WORE CWS, FATT 
棋 。 


在 转 到 位 于 纽约 约克 敦 海 将 的 IBM 托 马 斯 J. 沃 森 研 究 中 心 之 前 ， 杰 
拉 德 . 特 索 罗 在 位 于 伊利 诡 伊 大 学 香槟 分 校 的 复杂 系统 研究 中 心 ， 与 我 一 
起 训练 神经 网 络 玩 西洋 双 陆 棋 ( 见 图 10-1) 。 [2] 我 们 的 方法 是 ， 使 用 
专家 监督 来 训练 反 向 传播 网 络 ， 以 评估 当前 的 布局 和 可 能 的 摆 法 。 这 种 
方法 的 缺陷 在 于 ， 该 程序 永远 比 不 过 专家 ， 而 专家 的 水 平 并 未 达到 世界 
冠军 的 级 别 。 然 而 通过 目 我 对 局 ， 网 络 可 能 会 有 更 出 色 的 表现 。 当 时 目 
我 对 局 面临 的 问题 是 ， 在 比赛 结束 时 ， 唯 一 的 学 习 信 和 号 就 是 说 或 输 。 但 
是 当 一 方 获胜 时 ， 应 该 归功 于 之 前 者 干 步骤 中 的 哪些 步骤 呢 ? 这 被 称 
为 “时 域 贡 献 度 分 配 问题 ”(\temporal credit assignment problem) ° 


图 10-1 西 详 双 陆 棋 棋 板 。 西 洋 双 陆 棋 是 一 种 通过 朝 着 终点 按 步 走 棋 来 分 出 胜 负 的 游戏 ， 红 色 棋 子 
和 黑色 棋子 的 移动 方向 相反 《如 箭头 所 示 ) 。 图 中 标注 了 游戏 的 起 始 位置 。 同 时 掷 出 两 个 般 子 ， 
得 到 的 两 个 数字 表示 两 个 棋子 可 以 向 前 移动 的 距离 。 


有 一 种 可 以 解决 这 种 时 域 贡 献 度 分 配 问 题 的 学 习 算 法 ， 是 由 理 查 德 
peti (Richard Sutton) 于 1988 年 发 明 的 。 bn 他 当时 正在 与 他 的 博士 生 
导师 、 马 陕 诸 塞 大 学 阿 姆 赫 斯 特 分 校 的 安德鲁 . 巴 托 (Andrew Barto) , 


共同 解决 强化 学 习 领 域 中 的 问题 。 强 化 学 习 (reinforcement learning) 是 
受 动物 实验 中 的 关联 学 习 (associative learning) 所 启发 衍生 出 的 一 个 机 
器 学 习 研 究 分 文 领域 ( 见 图 10-2) 。 深 度 学 习 的 唯一 工作 是 将 输入 转换 
为 输出 。 强 化 网 络 与 之 不 同 ， 它 会 与 环境 进行 闭环 交互 ， 接 收 传感器 输 
入 ， 做 出 决定 并 采取 行动 。 强 化 学 习 的 基础 ， 是 观察 动物 怎样 通过 探索 
环境 中 的 各 种 选择 并 从 结果 中 学 习 ， 从 而 在 不 确定 的 条 件 中 解决 难题 。 
随 着 学 习 能 力 的 提高 ， 探 索 过 程 逐 渐 减 少 ， 最 终 会 直接 利用 学 习 过 程 中 
发 现 的 最 佳 策 略 。 


观察 


图 10-2 强化 学 习 场 景 。 智 能 体 (agent) 通过 采取 行动 (actions) 和 进行 观察 (observation) 来 积 
极 探索 环境 。 如 果 行 动 成 功 ， 执 行 器 将 得 到 奖励 (rewards) 。 该 过 程 的 目标 ， 是 通过 学 习 怎样 采 
取 行 动 来 最 大 化 可 能 获得 的 奖励 。 


假设 你 必须 做 出 一 系列 决定 才能 达成 目标 。 如 果 你 已 经 知道 所 有 洪 

在 的 选择 和 它们 各 目 可 能 带 来 的 奖励 ， 你 就 可 以 使 用 搜索 算法 一 一 具体 
来 说 ， 也 就 是 理 查 德 . 贝 尔 曼 (Richard Bellman) 的 动态 规划 算法 
(algorithm for dynamic programming) , [4 即 找 出 能 最 大 化 未 来 奖励 的 


选择 集 。 但 是 随 着 可 能 的 选择 越 来 越 多 ， 问 题 的 规模 也 呈 指 数 级 增长 ， 

这 被 称 为 “ 维 数 灾 难 ” (curse of dimensionality) ， 本 章 的 开头 已 经 对 其 进 
行 了 说 明 。 但 是 ， 如 采 在 选择 前 没有 获得 关于 选择 结果 的 所 有 信息 ， 你 
就 要 学 会 即时 做 出 最 好 的 选择 。 这 就 是 所 谓 的 “在 线 学 习 ” (online 


learning) o 


理 查 德 . 陕 顿 ( 见 图 10-3) 的 在 线 学 习 算法 依赖 于 期 望 奖 励 和 实际 奖 
励 之 间 的 差异 (见方 框 10.1) 。 在 时 间 差 分 学 习 (temporal difference 
learning) 中 ， 你 需要 估计 出 在 当前 状态 下 做 出 行动 有 可 能 带 来 的 长 期 奖 
励 (基于 已 得 到 的 奖励 而 得 出 的 较 好 估计 ) ， 以 及 下 一 个 状态 中 潜在 的 
长 期 奖励 ， 并 将 二 者 相 比 较 。 当 前 状态 得 到 了 实际 奖励 ， 因 此 估计 会 更 
准确 。 通 过 让 之 前 的 估计 更 接近 改进 后 的 估计 ， 你 做 出 的 决定 也 会 越 来 
越 好 。 存 在 一 个 价值 网 络 ， 能 够 佑 算出 棋盘 每 个 位 置 上 的 未 来 奖励 ， 对 
该 网 络 进行 的 更 新 则 被 用 于 决定 下 一 步 的 行动 。 在 你 有 足够 的 时 间 来 探 
索 不 同 的 可 能 性 后 ， 时 间 差 分 算法 会 收敛 于 最 佳 规则 ， 指 导 如 何在 给 定 
状态 下 做 出 决策 。 维 数 灾难 是 可 以 避免 的 ， 因 为 事实 上 ， 在 棋盘 所 有 可 
能 的 位 置 中 有 一 小 部 分 会 被 访问 ， 但 这 足以 为 新 对 局 中 类 似 的 棋盘 位 置 
制定 出 好 的 策略 。 


图 10-3 2006 年 在 加 拿 大 埃 德 蒙 顿 阿 尔 伯 塔 大 学 的 理 查 德 . 棋 顿 。 他 教会 了 我 们 获取 未 来 奖励 的 学 
习 方 法 。 理 查 德 是 一 位 癌 证 幸存 者 ， 他 在 强化 学 习 方 面 一 直 是 领军 人 物 ， 并 在 持续 不 断 地 开发 创 


新 型 的 算法 。 他 总 是 很 慷慨 地 和 别人 交流 ， 分 享 自己 的 见解 ， 同 领域 的 每 个 人 对 此 都 非常 赞赏 。 
他 和 安德鲁 : 巴 托 合 著 的 书 《 强 化 学 习 导 论 》 (Reinforcement Learning: An Introduction) 是 该 领域 
的 经 典 著 作 之 一 。 此 书 的 第 二 版 在 互联 网 上 可 以 免费 获取 。 图 片 来 源 : FRA Pa 。 


杰 拉 德 .特有 索 罗 的 程序 名 为 “TD-Gammon”， 内 建 了 西洋 双 陆 棋 棋 盘 和 
规则 的 重要 特征 ， 但 它 并 不 知道 怎么 下 好 每 一 步 棋 。 在 学 习 的 初始 阶 
Be, KERF ERLE, (ERAS Dem, FREAK o FEE 
SLAY) AE SB TORT EE EUER" RY SAR 


10.1 
时 间 差 分 学 习 


文 个 蜜蜂 大 脑 的 模型 能 够 选择 行动 〈 比 如 落 在 一 东 花 上 ) ， 以 最 
大 化 未 来 所 有 的 折扣 奖励 (discounted rewards) : 


花 感官 输入 


侧 抑 制 


R(t)=r t+1 tyr +2 +7 t3 ^... 
rt+1 是 在 时 间 t+1 时 的 奖励 ，0 «y « 1 是 折扣 系数 。 基 于 当前 感 
BAs (t ) 的 预测 的 未 来 奖励 是 通过 神经 元 P 计 算出 来 的 : 


pt (S) = wy Sy + w^ sb 

来 目 黄色 (Y) ERMEE (B) ERRERA] Ew A w 
b HIX 9 dr TT At HIKA 6 (t) ADEA F: 

ót-rt*yP ier) | 

rt 代表 当前 的 奖励 。 每 个 权重 的 改变 如 下 : 


Ow t= QÔ t St_1 


a 代表 学 习 速率 。 如 果 当 前 奖励 大 于 预测 奖励 ， 且 5814 是正 值 ， 奖 
励 出 现 之 前 的 感官 输入 的 权重 就 会 增加 ， 但 是 如 果 当前 奖励 小 于 预测 
奖励 ， 且 51 是 负 值 ， 感 官 输入 的 权重 就 会 减少 。 


片 改 编目 : Montague, P. R. and Sejnowski, T. J., The Predictive 
Brain: Temporal Coincidence and Temporal Order in Synaptic Learning 
Mechanisms, figure6 A ° 


由 于 唯一 的 实际 奖励 发 生 在 游戏 结束 时 ， 你 可 能 会 合理 地 推测 TD- 
Gammon 将 首先 学 习 游 戏 结局 ， 然 后 是 游戏 的 中 间 部 分 ， 最 后 是 开局 。 
这 些 实际 上 是 发 生 在 “表格 强化 学 习 ” (tabular reinforcement learning) 的 
过 程 ， 其 状态 空间 中 的 每 个 状态 都 对 应 着 一 个 数值 表 。 但 它 与 神经 网 络 
完全 不 同一 一 神经 网 络 快速 锁定 输入 特征 中 的 简单 可 靠 信 号 ， 接 着 锁定 
后 期 较 复 杂 、 不 太 可 靠 的 输入 信号 。TD-Gammon 学 习 的 第 一 个 概念 
是 “ 拿 走 棋子 ”， 可 以 通过 对 表示 拿 走 棋子 数目 的 输入 特征 添加 正 的 权重 
来 实现 。 第 二 个 概念 是 “ 击 中 对 手 棋子 “一 一 这 是 一 个 在 所 有 阶段 效果 都 
相当 不 错 的 局 发 式 做 法 ， 一 部 分 输入 单元 对 被 击 中 的 对 手 棋子 的 数目 进 
行 了 编码 ， 可 以 通过 为 这 些 单元 加 上 正 权重 进行 学 习 。 第 三 个 概念 * 避 免 
被 击 中 ”， 是 对 第 二 个 概念 的 一 种 目 然 反应 ， 可 以 通过 对 可 能 被 击 中 的 单 
个 棋子 施加 人 负 权 重 来 学 习 。 第 四 个 概念 是 通过 “积累 积分 ”来 阻止 对 手 前 
进 ， 通 过 对 积分 输入 赋予 正 权 重 来 学 习 。 理 解 这 些 基本 概念 需要 完成 几 


千 场 的 训练 棋局 。 通 过 一 万 场 棋局 ，TD-Gammon 会 学 习 到 中 级 概念 ， 通 
过 10 万 场 棋局 ， 它 开始 学 习 高 级 概念 ， 经历 了 100 万 场 棋局 后 ， 它 已 经 学 
会 了 冠军 级 的 概念 ， 或 者 超越 了 了 20 世纪 90 年 代 初 人 类 玩家 的 水 平 。 

太 拉 德 . 特 索 罗 于 1992 年 问 全 世界 展示 了 TD-Gammon， 它 的 表现 让 我 
和 其 他 同行 都 感到 非常 惊讶 。 [9l 这 个 程序 的 价值 画 数 (value function) 
是 一 个 具有 80 个 隐藏 单元 的 反 回 传播 网 络 。 在 30 万 场 比赛 之 后 ， 该 程序 
击败 了 杰 拉 德 ， 于 是 他 联系 了 著名 的 西洋 双 陆 棋 世 界 冠 军 选 手 兼 作家 比 
尔 : 罗 伯 特 (Bil Robertie) ， 并 邀请 他 来 约克 敦 海 湾 的 IBM 跟 TD- 
Gammon 对 局 。 有 罗伯特 记得 了 大 部 分 的 棋局 ， 但 是 对 在 一 些 胜算 较 高 的 
对 局 中 落 败 不 免 感 到 怀 讶 ， 随 后 他 宣布 这 是 他 对 决 过 的 最 好 的 西洋 双 陆 
棋 程 序 。TD-Gammon 展 现 了 一 些 他 从 未 见 过 的 棋 路 ;经 过 一 番 仔 细 研 
究 ， 这 些 棋 路 被 证 明 可 以 在 总 体 上 提升 人 类 玩家 的 水 平 。 当 该 程序 与 目 
己 对 局 达到 150 万 次 时 ， 罗 伯 特 回 米 了 ， 而 且 非 常 惊讶 于 自己 居然 只 跟 
TD-Gammon 亲 了 个 平手 。 它 的 水 平 突飞猛进 ， 罗 伯 特 觉得 它 已 经 达到 了 
人 类 冠军 的 水 平 。 西 洋 双 陆 棋 专 家 基 特 : 伍 尔 西 (Kit Woolsey) 发 现 ， 当 
时 TD-Gammon 对 于 应 该 打 安 全 牌 〈 低 风险 / 低 奖 励 ) 还 是 走 险 着 (高 风 
念 /高 奖励 ) 的 判断 ， 比 他 见 过 的 任何 人 都 要 准确 。 虽 然 150 万 局 的 训练 
可 能 看 起 来 已 经 很 多 了 ， 但 它 只 代表 了 所 有 1024 个 可 能 的 西洋 双 陆 棋 板 
位 置 的 无 限 小 部 分 ， 这 要 求 TD-Gammon 的 几乎 每 一 步 棋 都 能 推广 到 新 的 
棋 板 位 置 。 


TD-Gammon 并 没有 像 IBM 的 “深蓝 ”那样 受到 公众 的 关注 ， 后 者 在 
1997 年 的 国际 象棋 比赛 中 击败 了 加 里 : 卡 斯 帕 罗 夫 (Gary Kasparov) ° 
际 象棋 比 西洋 双 陆 棋 要 困难 得 多 ， 卡 斯 由 罗 夫 当时 是 国际 象棋 的 世界 冠 
军 。 但 在 某 些 方面 ，TD-Gammon 是 一 个 令 人 印象 更 加 深刻 的 成 就 。 首 
先 ，TD-Gammon 使 用 模式 识别 技术 来 教会 日 己 如 何 下 棋 ， 这 与 人 类 学 习 
的 风格 十 分 相似 ， 而 “深蓝 ? 则 通过 暴力 算法 (brute force) 获得 胜利 ， 使 
用 特制 硬件 ， 比 任何 人 类 棋 手 都 能 预见 到 更 多 可 能 的 棋 路 。 其 次 ，TD- 
Gammon 也 很 有 创意 ， 使 用 了 人 类 从 未 见 过 的 微妙 策略 和 位 置 决策 。 这 
样 一 来 ，TD-Gammon 也 提高 了 人 类 的 竞技 术 平 。 这 一 成 就 是 人 工 知 能 历 


史上 的 一 道 分 水 岭 ， 因 为 我 们 从 一 个 人 工 智能 程序 中 学 习 到 了 新 东西 。 
该 程序 教会 了 目 己 如 何在 一 个 人 类 熟 稳 的 领域 中 掌握 一 种 复 洒 的 策略 ， 
这 种 新 策略 值得 人 们 关注 和 思考 。 


大 脑 的 天 励 机 制 


TD-Gammon 的 核心 是 时 间 差 分 学 习 算法 ， 它 受到 了 动物 学 习 实 验 的 
启发 。 几 乎 所 有 经 过 测试 的 物种 ， 从 蜜蜂 到 人 类 ， 都 可 以 进行 天 联 训 
练 ， 就 像 巴 甫 洛 夫 的 狗 一 样 。 在 巴 甫 洛 夫 的 实验 中 ， 诸 如 铃声 之 类 的 感 
官 刺激 之 后 ， 束 会 有 食物 出 现 ， 这 会 引起 流 诞 反应 。 经 过 几 次 这 样 的 配 
对 之 后 ， 仅 靠 铃声 本 喘 瓯 会 导致 流 诞 。 不 同 物种 在 关联 学 习 中 对 无 条 件 
刺激 有 不 同 的 偏好 。 蜜 蜂 非常 擅长 将 花 的 气味 、 闫 色 和 形状 与 花蜜 的 奖 
励 联系 起 来 ， 并 利用 这 种 学 习 到 的 关联 来 找到 当 季 盛开 的 相似 品种 的 
伦 。 这 种 普 遇 的 学 习 方 式 一 定 包 含 了 什么 重要 信息 。20 世 纪 60 年 代 有 一 
段 时 期 ， 心 理学 家 们 深入 研究 了 引起 关联 学 习 的 条 件 ， 并 开发 了 解释 它 
的 模型 。 像 斯 金 纳 (B.F. Skinner) 这 样 的 行为 主义 学 家 曾 训 练 鸽 子 识 别 
出 照片 中 的 人 类 ， 这 就 让 人 联想 起 对 深度 学 习 的 训练 ， 但 这 其 中 有 一 个 
很 大 的 区 别 。 反 辣 传播 学 习 需 要 对 输出 层 上 的 所 有 单元 提供 详细 的 反 
馈 ， 但 天 联 学 习 只 提供 单一 的 奖励 信和 号， 即 正确 或 不 正确 。 大 脑 必须 弄 
清楚 环境 中 的 哪些 特征 能 够 帮助 做 出 成 功 的 抉择 。 

只 有 在 奖励 之 前 发 生 的 刺激 才 被 认为 和 奖励 有 关联 。 这 是 有 道理 
的 ， 相 比 奖 励 之 后 的 刺激 ， 奖 励 之 前 的 刺激 更 有 可 能 引发 奖励 。 因 有 果 关 
系 是 目 然 界 的 一 个 重要 原则 。 相 反 的 情况 则 是 条 件 刺激 之 后 伴随 的 惩 
划 ， 例 如 撞 到 脚 这 一 后 采 ， 能 教会 动物 在 今后 避免 这 类 刺激 。 在 某 些 情 
况 下 ， 条 件 刺 激 和 惩 如 之 间 的 时 间 间 隔 可 能 会 相当 长 。20 世 纪 50 年 代 ， 
约翰 :加 西亚 (John Garcia) 表明 ， 如 采 一 只 老鼠 被 咀 了 甜水 ， 并 且 在 几 
小 时 后 感到 有 恶心， 那么 它 在 接 下 来 的 几 天 都 会 避 开 甜水 。 这 融 是 所 请 
的 “味觉 厌恶 学 习 ” (taste aversion learning) ， 它 也 会 发 生 在 人 类 身上 。 
[6] 有时， 恶心 会 被 错误 地 关联 到 摄取 的 食物 上 ， 如 巧克力 。 遗 憾 的 是 ， 


巧克力 只 是 与 其 他 东西 同时 被 食用 ， 而 不 是 引起 恶心 的 原因 ;而 由 此 产 
生 的 厌恶 感 可 以 持续 多 年 ， 即 使 当事人 已 经 理性 地 觉察 到 巧 元 力 并 不 是 
问题 的 根源 。 


多 巴 胺 (Dopamine) 是 脑 干 中 一 组 由 扩散 投射 神经 元 所 携带 的 神经 
调节 剂 ( 见 图 10-4) ， 长 期 以 来 一 直 被 认为 与 奖励 学 习 有 关 ， (ATH 
终 不 清楚 它 传 给 皮层 的 信号 是 什么 。20 世 纪 90 年 代 ， 我 实验 室 的 博士 后 
研究 员 彼 得 : 达 扬 (Peter Dayan) 和 瑞 德 . 蒙 塔 古 (Read Montague) 意识 
到 ， 多 巴 胺 神经 元 可 以 实现 时 间 差 分 学 习 。 UL 这 是 我 科研 生涯 中 最 让 
人 兴奋 的 几 个 时 期 之 一 ， 这 些 模型 及 其 预测 得 以 发 表 ， 并 随后 被 沃 尔 夫 
拉 姆 : 舒 尔 芯 (Wolfram Schultz) 及 其 同事 通过 猴子 的 单 神经 元 记录 (HL 
图 10-5) [8] 和 人 类 脑 成 像 (91 加 以 证 实 。 现 在 已 经 确定 ， 多 巴 胺 神经 
元 活动 的 瞬时 变化 传递 了 奖励 预测 误差 信号 。 
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图 10-4 人 脑 中 的 多 巴 胺 神经 元 。 位 于 中 脑 的 几 个 核 [VTA 和 黑 质 (substantia nigra) | 将 轴 突 投 
射 进入 皮层 和 基底 神经 节 [BCA (striatum) 和 伏 隔 核 (nucleus accumbens) | 。 瞬 态 脉 冲 
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图 10-5 猴 脑 中 多 巴 胺 神经 元 的 反应 ， 证 明了 它 能 够 向 大 脑 的 其 他 部 分 发 出 奖励 预测 误差 。 每 个 点 
都 是 多 巴 胺 神经 元 的 一 次 脉冲 。 每 一 条 线 都 是 单一 的 学 习 试 验 。 每 个 时 间 段 中 脉冲 的 数量 显示 在 
记录 的 顶部 。 (上 图 ) 在 学 习 开始 时 ， 奖 励 (R) 是 意外 得 到 的 ， 多 巴 胺 在 得 到 奖励 后 激发 了 一 


段 脉 冲 。 (FR) 经 过 多 次 试验 ， 当 光照 (条 件 刺激 ，conditioned stimulus, CS) 在 奖励 发 放 前 

寺 续 内 现时 ， 多 巴 胺 细胞 对 CS 做 出 了 反应 ， 但 没有 对 奖励 做 出 回应 。 根 据 时 间 差 分 学 习 ， 奖 励 
的 响应 被 奖励 前 的 预测 抵消 了 。 AD 当 奖 励 在 试验 中 被 扣留 时 ， 多 巴 胺 神经 元 的 激发 在 预 
出 现 奖 励 的 位 置 出 现 了 回落 。 图 片 改编 自 : Schultz, Dayan, and Montague, “A Neural Substrate of 
Prediction and Reward," 1594, figure 1 ° 
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1992 年 ， 我 去 柏林 拜访 了 正在 研究 蜜蜂 大 脑 快 速 学 习 的 兰 道 夫 . 门 泽 
^K (Randolph Menzel) ， 当 时 我 们 在 灵 长 类 动物 的 奖励 预测 误差 方面 已 
经 取得 了 一 些 进展 。 蜜 蜂 的 学 习 能 力 在 昆虫 界 是 数一数二 的 。 在 访问 一 
末 花 几 次 并 得 到 奖励 后 ， 蜜 蜂 束 能 记 住 这 宁 论 。 蜜 蜂 脑 中 有 大 约 100 万 个 
小 神经 元 ， 很 难 记 录 这 些 神 经 元 的 活动 ， 因 为 它们 非常 小 。 门 译 尔 的 小 
组 发 现 了 一 种 叫 作 *VUMmx1” 的 独特 神经 元 ， 它 对 和 莽 糖 有 反应 ， 但 对 和 气 
味 没 有 反应 。 然 而 ， 如 果 移 传递 气味 再 提供 庶 糖 奖励 ，VUMmx1 也 会 对 
气味 做 出 反应 。 【10] 时 间 差 分 学 习 的 多 巴 胺 模型 在 蜂 脑 中 可 能 由 单个 神 
经 元 实现 。VUMmx1 释 放 了 一 种 在 化 学 上 与 多 巴 胺 密切 相关 的 神经 调 市 
剂 一 一 奥 克 巴 胺 (octopamine) 。 这 种 蜜蜂 学 习 模 式 可 以 对 蜜蜂 心理 学 中 
一 些微 妙 的 方面 做 出 解释 ， 比 如 风险 规避 。 (CLL) 如 果 让 蜜蜂 在 “定时 定 
量 的 奖励 * 和 “在 一 半 的 时 间 内 获得 双 倍 奖励 * 之 间 进 行 选择 ， 蜜 蜂 会 始终 
选择 前 者 ， 尽 管 奖 励 的 平均 值 相同 12] 多 巴 胺 神经 元 也 存在 于 苍蝇 体 
内 ， 并 且 已 被 证 明 包 含 几 条 用 于 短期 和 长 期 天 联 记 忆 的 并 行 强化 学 习 途 
径 。[13] 


用 “感知 一 行动 * 框 染 提 融 绩 效 


多 巴 胺 神经 元 构成 了 控制 大 脑 中 动机 的 核心 系统 ， 所 有 成 六 药 物 痢 
征 通 过 增加 多 巴 胺 的 分 泌 水 平 起 作 用 。 当 死亡 的 多 巴 胺 神经 元 达到 一 定 
数量 时 ， 人 体 束 会 出 现 由 金森 病 的 症状 、 包 括 运 动 性 震颤 ， 运 动 玉 缓 ， 
后 期 则 完全 形 失 任何 活动 的 快感 ， 即 “快感 缺失 ” (anhedonia) ， 最 终 导 
人 致 活动 和 反应 能 力 的 彻底 缺失 ， 即 “紧张 性 抑郁 障碍 ” (catatonia) 。 当 意 
外 效 励 发 生 时 ， 行 为 正常 的 多 巴 胺 细胞 会 向 皮层 和 其 他 脑 部 区 域 短 暂 释 


放 多 巴 胶 。 当 实际 奖励 低 于 期 望 时 ， 多 巴 胶 的 释放 量 会 减少 。 这 正 是 时 
间 差 分 算法 的 特征 〈 见 图 10-5) ° 

当 我 们 需要 做 出 决定 时 ， 都 会 询问 多 巴 胺 神经 元 。 我 们 应 该 从 菜单 
中 点 些 什么 ? 当 我 们 想象 每 个 业 品 时 ， 多 巴 胺 细胞 就 会 提供 对 预期 奖励 
的 估计 。 我 应 该 和 这 个 人 结婚 吗 ? 我 们 的 多 巴 胺 细胞 会 给 我 们 一 个 比 理 
性 分 析 更 值得 信赖 的 “直觉 * 建 议 。 最 难以 决定 的 则 是 带 有 许多 不 相称 维 
度 的 问题 。 在 选择 配偶 时 ， 要 如 何平 衡 幽 默 感 和 咀 遇 的 生活 习惯 ， 或 者 
在 正面 和 负面 的 特质 之 间 做 出 数 以 百 计 的 其 他 权衡 。 我 们 的 奖励 系统 将 
所 有 这 些 维度 降低 到 了 一 个 “通用 货币 ”的 范畴 ， 即 短暂 的 多 巴 胺 信和 号。 
这 种 “通用 货币 ”的 经 济 力 量 在 我 们 发 现 它 之 前 很 长 一 段 时 间 ， 就 已 经 被 
大 目 然 所 利用 了 。 

时 间 差 分 学 习 算 法 中 存在 两 个 参数 ， 学习 速 率 a 和 折扣 因子 y (见方 
框 10.1) 。 某 些 昆虫 具有 很 高 的 学 习 速 率 ， 比 如 蜜蜂 ， 在 一 次 访问 后 就 
可 以 学 会 将 花 与 奖励 联系 起 来 。 但 哺乳 动物 的 学 习 速 率 较 低 ， 往 往 要 尝 
试 多 次 。 折 扣 因 子 (discount factor) 也 在 很 大 的 范围 内 变化 。 当 v= 0 
时 ， 学 习 算 法 是 贫 林 的， 仅仅 基 于 是 否 能 立刻 获得 奖励 做 出 决定 ;但 是 
当 y= 1 时 ， 所 有 未 来 奖励 都 具有 相等 的 权重 。 在 一 个 经 典 的 实验 中 ， 被 
测试 的 幼 董 可 以 选择 是 立刻 吃 掉 手 里 的 一 颗 棉 花 糖 ， 还 是 等 待 15 分 钟 再 
吃 ， 到 时 候 就 能 再 得 到 一 颗 棉 花 糖 。【 夫 | 年 龄 是 一 个 强 有 力 的 预测 因 
子 ， 年 龄 较 小 的 孩子 无 法 延迟 满足 感 。 如 果 认 为 有 必要 ， 我 们 可 以 在 短 
期 内 做 出 这 来 负面 回报 的 选择 ， 以 交换 在 遥远 的 将 来 所 期 望 获得 的 更 丰 
厚 的 奖励 。 

多 巴 胺 神经 元 接受 来 自 大 脑 中 被 称 为 “基底 神经 节 ” 部 分 的 输入 CUL 
图 10-4) ， 众 所 周知 ， 这 对 于 顺序 学 习 和 习惯 行为 的 形成 是 很 重要 的 。 
基 展 神经 下 纹 状 体 中 的 神经 元 接受 来 目 整 个 大 脑 皮 层 的 输入 。 来 目 皮 叶 
层 后 半 部 分 的 输入 ， 对 于 学 习 动作 的 顺序 以 实现 某 个 目标 而 言 十 分 重 
要 。 前 额 叶 皮层 对 基 帮 神经 和 的 输入 更 多 的 是 与 行动 的 计划 顺序 有 关 。 
从 皮层 到 基 撒 神经 节 再 返回 的 循环 需要 100 毫 秒 ， 每 秒 循环 信息 10 次 。 这 
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皮层 状态 ， 并 为 它们 分 配 一 个 值 。 

基底 神经 节 执 行 的 是 杰 拉 德 . 特 索 罗 在 TD-Gammon 中 训练 的 价值 函数 
的 高 级 版 本 ， 后 者 被 用 来 预测 棋盘 位 置 的 价值 。 在 第 1 章 中 描述 的 由 
DeepMind 公 司 开 发 的 AlphaGo 所 取得 的 惊人 成 束 ， 即 具备 围棋 世界 冠军 
级 别 的 能 力 ， 是 基于 与 TD-Gammon 相 同 的 体系 结构 ， 但 前 者 是 后 者 的 加 
强 版 。TD-Gammon 价 值 网 络 中 的 一 层 隐 藏 单元 在 AlphaGo 中 变 成 了 十 几 
层 ， 并 经 历 了 数 百 万 次 对 决 ， 但 基本 的 算法 是 一 样 的 。 这 是 对 神经 网 络 
学 习 算 法 出 色 的 缩放 性 的 生动 演示 。 如 果 我 们 继续 增加 网 络 规模 和 训练 
时 间 ， 性 能 还 会 获得 多 大 程度 的 提升 呢 ? 

棋 类 游戏 的 规则 比 现实 世界 要 简单 得 多 。 电 子 游戏 世界 为 迈 向 更 复 
杂 和 不 确定 的 环境 提供 了 一 块 热 脚 石 。DeepMind 在 2015 年 已 经 表明 ， 时 
间 差 分 学 习 能 够 以 屏幕 像素 为 输入 ， 学 习 如 何在 超人 的 水 平 上 玩 像 Pong 
这 样 的 雅 达 利 (Atari) 街机 游戏 。 [LO] 下 一 个 执 脚 石 是 三 维 环境 中 的 视 
频 游 戏 。《 星 际 争霸 》 (StarCraft) 是 有 史 以 来 最 具 竞 争 力 的 视频 游戏 
之 一 ，DeepMind 下 在 使 用 它 来 开发 可 在 该 世界 纵横 挥 阅 的 自主 深度 学 习 
网 络 。 微 软 研 究 院 最 近 购 买 了 男 一 种 流行 的 视频 游戏 《我 的 世界 》 
(Minecraft) 的 版 权 ， 并 开放 了 它 的 源 代 码 ， 以 便 其 他 人 可 以 对 它 的 三 
维 环境 进行 个 性 化 修改 ， 从 而 加 快 其 人 工 智 能 的 发 展 进度 。 


能 够 像 冠 军 那 样 下 西洋 双 陆 棋 和 围棋 ， 是 一 项 了 不 起 的 成 就 ， 玩 电 
子 游戏 是 下 一 个 重要 的 进步 ， 那 么 解决 现实 世界 的 问题 呢 ? 感知 一 行动 
周期 ( 见 图 10-2) 可 用 于 解决 任何 基于 感官 数据 来 计划 行动 的 问题 。 行 
为 的 结 采 可 以 与 预测 的 结果 进行 比较 ， 其 差 值 随后 被 用 于 更 新 进行 预测 
的 系统 的 状态 ， 对 先前 条 件 的 记忆 可 以 被 用 来 优化 资源 的 使 用 ， 并 预测 
潜在 的 问题 。 

加 拿 大 安大略 省 汉密尔顿 市 麦克 马 斯 特大 学 (McMaster University) 
的 西蒙 . 赫 金 (Simon Haykin) ， 曾 经 使 用 这 个 框架 来 提高 几 个 重要 的 工 
程 软件 系统 的 性 能 ， USl 包括 :， 认 知 无 线 电 ， 可 以 动态 分 配 通 信 渠 道 ; 
认 知 雷达 ， 能 够 动态 地 移动 频带 以 减少 干扰 ， 还 有 认 知 电网 ， 可 以 动态 


平衡 电网 电力 人 负载。 风险 控制 也 可 以 在 同一 个 “感知 一 行动 ”框架 内 进行 
管理 。[17] 通过 在 每 个 软件 系统 中 使 用 "感知 一 行动 ”框架 来 改进 它们 所 
管理 的 领域 ， 可 以 显著 地 提高 绩效 并 降低 成 本 。 
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2016 年 ， 加 州 大 学 圣迭戈 分 校 的 物理 学 家 马 西 莫 : 维 加 索 拉 
(Massimo Vergassola) 和 我 都 在 思考 ， 是 否 可 以 利用 时 间 差 分 学 习 ， 让 
滑翔 机 在 高 空 抽 翔 几 小 时 ， 而 且 像 许多 乌 类 那样 不 用 消耗 太 多 能 量 。 
[18] 热膨胀 空气 能 够 将 鸟 类 带 到 很 高 的 高 度 ， 但 是 在 热 空气 中 ， 空 气 是 
满 流 的 ， 同 时 存在 向 下 和 向 上 的 气流 。 面 对 如 此 多 的 冲击 ， 鸟 类 是 如 何 
保持 它们 向 上 轨迹 的 ， 我 们 对 此 还 没有 一 个 清晰 的 认识 。 我 们 的 第 一 步 
是 对 潮流 对 流 过 程 进 行 一 个 逼真 的 物理 模拟 ， 并 创建 一 个 滑翔 机 空气 动 
力学 模型 。 下 一 步 就 是 模拟 滑翔 机 在 满 流 中 的 轨迹 。 

一 开始 ， 滑 翔 机 还 无 法 利用 上 升 的 空气 柱 ， 表 现 为 向 下 滑行 〈 见 图 
10-6) 。 在 将 “向 上 ”标记 为 奖励 后 ， 滑 翔 机 开始 学 习 一 种 策略 ， 经 过 几 
百 次 试验 后 ， 它 的 飞行 轨迹 跟 乌 类 疆 翔 时 所 形成 的 紧凑 的 环 状 路 径 就 比 
较 相 似 了 “。 滑 翔 机 还 学 习 了 应 对 不 同 程度 满 流 的 不 同 策略 。 通 过 分 析 这 
些 策略 ， 我 们 可 以 提出 假设 ， 并 参考 乌 类 德 翔 是 否 的 确 使 用 到 了 这 些 策 
略 。 然 后 ， 我 们 装备 了 一 架 翼 展 有 6 英尺 宽 的 滑翔 机 ， 教 它 描 翔 并 保持 高 
je [19] 
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图 10-6 滑翔 机 学 习 使 用 热气 流 疆 翔 的 模拟 。〈 下 图 ) 在 我 们 的 瑞 利 - 贝 纳 尔 对 流 (Rayleigh-Bénard 
convection) 三 维 数值 模拟 中 垂直 速度 场 (A) 和 温度 场 (B) WAR BARE, AeA 
色 分 别 表示 上 升 气 流 和 下 降 气 流 的 区 域 。 温 度 场 中 ， 红 色 和 赣 色 分 别 表示 高 温和 低温 区 域 。 (上 
图 ) 未 经 训练 的 滑翔 机 (A) 和 经 过 训练 的 滑翔 机 (B) 在 瑞 利 - 贝 纳 尔 汕 流 中 飞行 的 典型 轨迹 。 
颜色 表示 滑翔 机 经 历 的 慰 直 风速 。 绿 色 和 红色 圆 点 分 别 表示 轨迹 的 起 点 和 终点 。 未 经 训练 的 滑翔 
机 随机 做 出 决定 并 下 降 飞 行 高 度 ， 而 训练 过 的 滑翔 机 在 强 上 升 气流 区 域 以 特征 的 螺旋 轨迹 飞行 ， 
如 乌 类 和 清 翔 机 在 热气 流 中 飞行 时 所 观察 到 的 那样 。 图 乒 来 源 : G. Reddy, A.Celani, T. J. 
Sejnowski, and M. Vergassola, *Learning to Soar in Turbulent Environments," top: figure 2; bottom: 
figure 11 ° 


学 习 如 何 歌 唱 


能 够 展现 强化 学 习 能 力 的 其 他 例子 ， 还 包括 乌 类 如 何 学 习 唱歌 ， 以 
及 孩子 如 何 学 习 说 话 。 在 这 两 种 情况 下 ， 听 觉 学 习 的 初始 阶段 结束 之 
后 ， 殊 进入 了 渐进 式 运动 性 学 习 的 后 期 阶段 。 斑 胸 草 从 在 刚 出 生 不 久 整 
昕 到 了 它们 父亲 的 歌声 ， 但 要 几 个 月 后 才能 发 出 目 己 的 声音 。 即使 当 它 
们 在 运动 学 习 阶 段 与 父亲 分 离 时 ， 会 经 历 一 段 听 起 来 很 刺耳 的 初 吗 期 ， 


但 这 种 声音 会 不 断 地 改善 ， 最 终 按照 它们 父亲 特有 的 音调 发 出 乌 鸣 。 斑 
胸 草 省 可 以 通过 同 物种 的 歌声 判断 它 来 自 森 林 的 何 处 ， 就 像 我 们 能 够 从 
一 个 人 的 口音 得 知 那个 人 来 自 哪 里 一 样 。 推 动 鸟 鸣 研 究 的 假设 是 ， 在 听 
觉 学 习 阶段 ， 鸟 类 先 学 习 模板 ， 然 后 用 模板 来 改进 运动 系统 在 运动 性 学 
习 阶 段 产生 的 声音 。 我 们 知道 强化 学 习 发 生 在 基底 神经 节 ， 而 负责 人 类 
和 鸣 禽 运动 学 习 阶段 的 通路 也 位 于 那里 。 

1995 年 ， 我 实验 室 的 博士 后 铜 合 贤 治 (Kenji Doya) 开发 了 “ 乌 鸣 运 
动 细 化 ”的 强化 学 习 模 型 ( 见 图 10-7) 。 该 模型 通过 调整 运动 通路 中 的 突 
和 触 ， 使 之 与 鸟 类 的 发 声 器 官 (MBE, syrinx) 模型 相 匹配 ， 从 而 提高 
它 的 性 能 ， 然 后 测试 新 歌 是 否 比 前 一 首 歌 更 符合 这 个 模板 。 如 果 是 的 
话 ， 这 些 变 化 就 被 保留 ， 但 如 果 新 的 歌曲 匹配 效果 较 差 ， 那 么 突 触 就 会 
衰减 回 原来 的 强度 。 [20] 我 们 预测 ， 在 产生 音节 序列 的 运动 回路 的 顶 
端 ， 应 该 只 活跃 在 歌曲 单个 音节 上 的 神经 元 ， 以 便 更 容易 地 对 每 个 音节 
分 别 进行 调整 。 后 来 ， 麻 省 理工 学 院 的 米 软 尔 - 菲 (Michale Fee) 实验 室 
和 其 他 鸟 类 实验 室 的 研究 结果 证 实 了 这 一 点 ， 同 时 也 证 实 了 该 模型 中 的 
其 他 关键 预测 。 


Isolate 
tutor 


Pupils of succeeding clutches 


Frequency (kHz) 


150 ms 
图 10-7 PIE TER ES RES o 在 图 右 侧 的 频谱 图 中 ， 父亲 的 歌唱 (导师 ， 上 图 ) 教 给 了 儿子 (学 生 ， 


上 数 第 二 张 图 ) ， 于 是 这 种 乌 鸣 的 声音 特征 代 代 相传 。 注 意 频 谱 图 (时 域 上 的 频谱 功率 函数 ) 中 
基调 《红色 轮廓 框 ) 的 相似 性 。 基 调 随 着 代 际 的 增长 而 变 短 。 左 图 来 源 : http://bird- 
photoo.blogspot.com/2012/11/zebrafinch-bird-pictures.html; 右 图 来 源 : Olga Feher Haibin Wang, 
Sigal Saar, Partha P. Mitra, and Ofer Tchernichovski,“De novo Establishment of Wild-Type Song Culture 
in the Zebra Finch,” figuer 4 ° 


E 


在 加 州 大 学 旧金山 分 校 研 究 鸟 鸣 学 习 的 艾 莉 森 : 杜 普 (Allison 
Doupe) ， 以 及 在 西雅图 华盛顿 大 学 研究 婴儿 语言 系统 发 育 的 帕 特 里 夏 : 
库 尔 (Patricia Kuhl) ， 都 证 明了 鸣 禽 学 习 和 幼儿 语言 学 习 方面 有 很 多 相 
似 之 处 。 D21] 鸟 儿 的 音节 和 婴儿 的 音素 首先 是 作为 声音 被 习 得 的 〈 即 听 
觉 学 习 ) ， 而 运动 学 习 随 后 才 以 鸟 类 的 初 鸣 和 婴儿 的 只 呀 学 语 开始 。 在 
大 脑 中 有 许多 因 领 域 而 异 的 学 习 和 记忆 系统 ， 这 些 系统 必须 协同 工作 以 
获取 新 技能 。 马 类 学 习 乌 鸣 的 强化 学 习 算 法 以 及 在 猴子 、 人 类 、 蜜 蜂 等 
交 励 系统 中 的 时 间 差 分 学 习 算法 ， 只 是 其 中 的 两 个 例子 。 
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尽管 人 们 在 视觉 和 听觉 等 认 知 功能 的 目 动 化 方面 取得 了 进展 ， 但 人 
工 智能 还 需要 在 人 类 智能 的 许多 其 他 方面 取得 进步 。 皮 层 中 的 表征 学 习 
与 基底 神 经 节 中 的 强化 学 习 相 辅 相 成 。 人 工 智能 学 习 能 把 精通 围棋 的 能 
力 运 用 到 解决 其 他 复杂 问题 上 吗 ? 大 部 分 人 类 学 习 都 是 基于 观察 和 模 
仿 ， 对 于 学 习 识 别 新 对 象 ， 我 们 需要 的 样本 比 深度 学 习 要 少 得 多 。 未 标 
记 的 感官 数据 非常 丰富 ， 强 大 的 无 监督 学 习 算法 可 以 在 进行 任何 监督 之 
前 使 用 这 些 数据 学 到 一 些 东 西 。 在 第 7 章 中 ， 一 个 无 监督 版 本 的 玻 尔 效 曼 
学 习 算 法 被 用 来 初始 化 深度 学 习 网 络 。 在 第 6 章 中 ， 独 立 分 量 分 析 一 一 一 
种 无 监督 学 习 算 法 ， 能 够 从 自然 图 像 中 提取 稀 玻 编码 (sparse population 
codes) 。 在 第 9 章 ， 生 成 对 抗 网 络 一 一 一 个 无 监督 的 学 习 系 统 ， 可 以 创 
建 再 真 的 网 片 。 无 监督 学 习 是 机 器 学 习 的 下 一 个 前 沿 领域 。 我 们 对 大 脑 
式 计 算 的 理解 才刚 刚 拉 开 序幕 。 

大 脑 的 许多 学 习 系 统 和 形式 多 样 的 可 塑性 可 以 协同 工作 。 仅 在 大 脑 
皮层 内 束 有 几 十 种 可 塑性 ， 例 如 神经 元 兴 理 性 和 增益 的 可 塑性 。 突 触 可 
塑性 一 个 特别 重要 的 形式 是 稳 态 (homeostatic) ， 它 确保 神经 元 在 最 佳 
动态 范围 内 活动 。 当 突 触 强 度 降 低 到 零 或 达到 极限 时 ， 会 发 生 什么 呢 ? 
这 可 能 导致 神经 元 永远 不 会 获得 足够 的 输入 来 达到 靖 值 ， 或 者 接收 太 多 
的 输入 并 始终 保持 高 水 平 的 活动 。 吉 娜 . 特 里 吉 亚 详 (Gina Turrigiano) 在 
大 脑 中 发 现 了 一 种 新 的 突 触 可 塑性 形式 ， 它 将 神经 元 上 的 所 有 突 触 进行 
了 归 一 化 ， 以 维持 神经 元 活动 的 平衡 。 [22] 如 果 平 均 活动 速率 过 高 ， 所 
有 兴奋 性 突 触 强 度 都 会 减 小 ， 如 果 速 率 太 低 ， 所 有 突 触 强度 都 会 增加 。 
对 于 抑制 性 和 输入， 情况 则 相反 ， 如 宁 活 动 速率 太 高 ， 突 触 强 度 会 增加 ， 
速率 太 低 则 减 小 。 类 似 的 归 一 化 形式 已 经 被 证 明 能 够 有 效 地 模拟 大 脑 中 
神经 映射 的 发 展 。 [23] 由 随机 梯度 下 降 (stochastic gradient descent) 3X 
动 的 人 工 神经 网 络 能 够 从 稳 态 缩放 (homeostatic scaling) 中 受益 。 


大 脑 在 其 神经 元 细胞 膜 上 有 具 有数 十 个 电压 敏感 的 配 体 门 控 离 子 通 
道 ， 用 以 调节 兴 理 性 和 信号 传导 。 神 经 元 的 树 突 、 体 细胞 和 轴 突 内 部 一 


定 有 某 种 基于 局 部 活动 模式 的 机 制 ， 来 动态 调节 这 些 通道 的 位 置 和 密 
度 。 有 人 曾 提 出 过 几 种 算法 来 实现 这 些 机 制 。 [24] 目前 ， 我 们 对 这 些 稳 
态 形式 的 理解 并 没有 达到 突 触 稳 态 可 塑性 那样 的 深度 。 


更 多 需要 被 解决 的 问题 


在 蒙特 利 尔 举行 的 2015 年 NIPS 大 会 的 “Brains , Minds and 
Machines”( 大 脑 、 思 维和 机 器 ) 座谈 会 ， 以 及 2016 年 巴塞 罗 那 NIPS 大 会 
的 “Bits and Brains" (比特 与 大 脑 ) 研讨 会 期 间 ， 戴 米 斯 . 哈 萨 比 斯 和 我 在 
关于 人 工 智 能 未 来 ， 以 及 下 一 个 优先 研究 重点 的 问题 上 进行 了 激烈 的 辩 
论 。 人 工 智 能 中 还 有 许多 开放 的 问题 需要 解决 。 最 重要 的 就 是 因果 关系 
问题 ， 它 提供 了 最 高 层次 的 人 类 推理 ， 以 及 行动 的 意向 性 问题 ， 这 两 者 
都 预示 着 一 种 精神 理论 。 我 之 前 提 到 ， 我 们 所 创造 的 深度 学 习 系 统 都 不 
能 依靠 自己 独立 生存 。 这 些 系统 的 自主 性 只 有 在 它们 包含 了 迄今 为 止 一 
直 被 忽视 的 ， 类 似 于 大 脑 其 他 部 分 的 功能 时 才 有 可 能 实现 ， 例 如 管理 摄 
食 、 索 殖 、 调 和 激素 、 稳 定 内 脏 的 下 丘脑 ， 以 及 帮助 我 们 根据 运动 预测 
误差 来 调整 运动 的 小 脑 。 这 些 都 是 在 所 有 兰 椎 动物 中 发 现 的 古老 结构 ， 
对 生存 起 着 至 关 重 要 的 作用 。 


哈 瓦 - 西 格 尔 曼 (Hava Siegelmann) 是 马萨诸塞 大 学 阿 默 斯 特 分 校 的 
计算 机 科学 家 ， 她 表明 模拟 计算 (analog computing) 是 超 图 灵 (super- 
Turing) ， 也 就 是 说 ， 拥 有 能 够 超越 数字 计算 机 的 计算 能 力 。 D29] 可 以 
根据 环境 进行 调整 和 学 习 的 神经 网 络 也 有 超 图 灵 计 算 能 力 ， 而 普通 网 络 
从 训练 集中 学 习 ， 然 后 其 结构 就 被 固定 下 来 ， 在 操作 时 不 再 从 它们 的 实 
际 经 验 中 学 习 ， 这 一 点 和 图 灵机 是 一 样 的 。 但 是 ， 我 们 的 大 脑 必须 持续 
适应 不 断 变 化 的 条 件 ， 这 就 使 我 们 具备 了 超 图 灵 能 力 。 我 们 如 何 做 到 这 
一 点 并 同时 拥有 以 前 的 知识 和 技能 ， 是 一 个 尚未 解决 的 问题 。 哈 瓦 是 
DARPA 终 身 学 习 项 目的 项 目 经 理 。 她 的 “终身 学 习 计 划 ” 正 在 资助 一 些 高 
级 研究 ， 这 些 研究 旨 在 为 自治 系统 中 的 终身 学 习 创 建新 的 集成 架构 。 
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11 
火爆 的 NIPS 


要 追寻 科学 思想 的 源头 并 非 易 事 ， 因 为 科学 是 分 布 在 不 同时 空中 
很 多 个 体 活动 的 集合 。 神 经 信息 处 理 系统 大 会 (NIPS 大 会 ， 见 图 11- 
1) 是 本 书写 作 的 线索 。 到 目前 为 止 ， 很 明显 ， 这 一 会 议 不 仅 对 我 ， 世 
对 整个 科学 领域 产生 了 重大 影响 。[ 当时 还 没 成 为 我 妻子 的 比 阿 特 丽 
斯 :哥伦布 ， 在 1990 年 的 NIPS 大 会 上 做 了 关于 SEXNET 的 演讲 。 在 结婚 
后 不 久 的 一 次 NIPS 大 会 上 ， 我 们 还 差点 分 手 。NIPS 大 会 让 人 着 迷 ， 白 
天 都 是 一 些 会 议 的 常规 环 方 ， 墙 报 展示 环 市 设 在 上 晚上， 直到 后 半夜 各 
个 会 场 仍然 人 声 鼎 沸 。 有 次 我 在 凌晨 3 点 参加 完 一 个 环节 的 活动 ， 回 到 
房间 没 找到 比 阿 特 丽 斯 ， 当 时 我 意识 到 自己 麻烦 大 了 。 笠 运 的 是 ，28 
年 后 ， 我 们 还 在 一 起 。 


图 11-1 NIPS 大 会 的 标志 。30 年 前 成 立 的 NIPS 大 会 是 机 器 学 习 和 深度 学 习 领 域 的 顶级 会 议 。 图 
片 来 源 : NIPS 基 金 会 。 


为 什么 NIPS 如 此 受 欢迎 


深度 学 习 拥 有 很 长 的 历史 ， 可 以 追溯 到 NIPS 年 度 大 会 和 人 研讨 会 ， 
以 及 这 些 会 议 的 前 身 。20 世 纪 80 年 代 ， 来 自 世 界 各 地 的 工程 师 、 物 理 
学 家 、 数 学 家 、 心 理学 家 和 神经 科学 家 在 NIPS 大 会 上 齐 聚 一 党 ， 探 讨 
共同 构建 人 工 智能 的 新 方法 。 物 理学 家 分 析 神 经 网 络 模型 ， 心 理学 家 
模拟 人 类 认 知 ， 神 经 科学 家 模拟 神经 系统 并 分 析 神 经 记录 ， 统 计 学 家 
探索 高 维 空 间 中 的 大 数据 集 ， 工 程 师 则 负责 构建 具备 类 人 的 视觉 和 听 
觉 的 设备 。 人 工 智 能 就 以 这 样 的 方式 飞速 发 展 起 来 。 

1987 年 在 美国 丹佛 技术 中 心 举 办 的 第 一 届 NIPS 大 会 ， 聚 集 了 400 位 
与 会 者 。 学 术 会 议 通 常 侧重 于 狭窄 的 研究 领域 ， 因 为 每 个 人 都 会 说 同 
样 的 术语 ， 彼 此 间 能 顺畅 地 交流 。 但 是 早期 NIPS 大 会 的 科学 多 样 性 确 
实 令 人 惊叹 。 生 物 学 家 在 面 对 其 他 生物 学 家 做 演讲 时 ， 会 用 生物 领域 
的 术语 [2] 数学 家 和 物理 学 家 交流 的 情况 更 糟糕， 他 们 只 会 用 方程 式 
说 话 。 工 程 师 们 会 好 一 些 ， 因 为 他 们 构建 的 东西 不 言 自明 。 由 于 这 些 
文化 障碍 ， 跨 学 科研 究 虽然 被 普遍 寄予 厚望 ， 但 事实 上 却 很 难 实现 。 
在 早期 的 NIPS 大 会 上 ， 好 像 每 个 人 都 在 自 说 自 话 。 


1987 年 NIPS 大 会 的 主要 会 议 结束 之 后 ， 与 会 者 在 附近 的 滑雪 胜地 
Keystone 又 聚集 到 一 起 开 了 个 研讨 会 ， 并 目 行 组 织 了 小 组 会 议 。 在 一 个 
不 那么 正式 的 环境 里 ， 学 科 之 间 的 真正 沟通 开始 了 。 我 清楚 地 记得 ， 
我 们 在 Keystone 的 热 水 浴缸 里 泡 澡 的 时 候 ， 一 位 神经 学 博士 建议 当场 开 
展 一 个 关于 海 免 的 研讨 会 DI 当时 我 旁边 那 位 来 自 美国 国防 部 的 绅 
士 ， 很 可 能 在 琢磨 海 免 与 国家 安全 有 什么 关系 。 然 而 今天 ，NIPS 研 讨 
会 都 是 融 有 墙报 展示 环 世 的 小 型 会 议 ， 其 中 一 些 研讨 会 吸引 了 数 千 名 
与 会 者 。 

是 什么 让 NIPS 长 期 受到 追捧 呢 ? 首先 ， 是 让 人 激动 的 氛围 ， 因 为 
我 们 正 处 于 用 受 生物 学 局 发 的 学 习 算 法 来 解决 复杂 计算 问题 的 前 沿 。 
其 次 ， 就 是 因为 爱德华 :波斯 纳 ( 见 图 11-2) ， 他 是 加 州 理 工学 院 的 信 
息 理 论 家 ， 也 是 喷气 推进 实验 室 (Jet Propulsion Lab) 的 首席 技术 专 


家 。 他 对 这 个 领域 有 着 长 远 的 眼光 ， 并 建立 了 NIPS 基 金 会 对 大 会 进行 
管理 。 

一 个 组 织 的 文化 往往 能 反映 其 创始 人 的 特质 。 爱 德 华 赋予 了 NIPS 
窒 害 、 机 敏和 幽默 感 的 独特 组 合 。 他 是 一 位 擅长 启发 别人 的 老师 ， 同 
时 也 是 卓有成效 的 领导 者 。 他 因为 支持 赌 期 大 学 生 人 研究 奖学金 项 目 

(Summer Undergraduate Research Fellowships ， 简 称 SURF) 而 在 加 州 
理工 学 院 备 受 爱戴 ， 该 项 目 被 称 为 “加州 理工 皇冠 上 的 宝石 ”之 一 。 爱 德 
华 招募 了 菲 尔 ' 索 特 尔 (Phil Sotel) 作为 公益 法 律 顾 问 。 数 十 年 间 ， 会 
议 规模 和 复杂 程度 都 在 不 断 增 长 。 在 索 特 尔 的 努力 下 ， 许 多 随 之 而 来 
的 问题 都 妥善 地 得 到 了 解决 ， 因 此 大 会 得 以 每 年 顺利 举行 。 


| 
jp 
| il 


图 11-2 加 州 理工 学 院 的 爱德华 .波斯 纳 ，NIPS 大 会 的 发 起 人 。 该 大 会 在 举办 了 30 年 后 仍然 顾 受 
欢迎 ， 这 跟 爱 德 华 的 远见 卓识 密 不 可 分 。 图 片 来 源 ， 加 州 理工 学 院 。 


爱德华 在 我 妻子 还 很 年 轻 的 时 候 就 认识 她 了 ， 并 且 通 过 NIPS 单 独 
结识 了 我 。 所 以 当 我 在 一 次 NIPS 大 会 中 突然 告诉 他 ， 比 阿 特 丽 斯 和 我 
已 经 订婚 (engaged) 了 的 时 候 ， 他 回答 说 : “致力 于 (engaged) tf 
Lo » [4] 爱德华 于 1993 年 在 一 次 自行 车 事故 中 不 幸 身亡 ， 随 后 我 接替 
他 成 为 NIPS 基 金 会 主席 ， 保 证 大 会 的 继续 发 展 和 索 采 。 我 们 在 每 年 的 


NIPS 大 会 上 都 会 举办 爱德华 :波斯 纳 讲座 (Ed Posner Lecture) ， 以 表示 
对 他 的 缅怀 和 敬意 。 NIPS 大 会 的 特 邀 演讲 嘉宾 通常 都 不 是 NIPS 主 流 领 
域内 的 从 业者 ， 但 波斯 纳 讲 座 主 要 的 演讲 痢 都 是 来 日 我 们 这 个 群体 ， 
并 对 该 领域 做 出 重大 页 献 的 成 员 。 

NIPS 大 会 的 主语 团 由 一 群 杰出 的 科学 家 和 工程 师 组 成 。 在 此 仪 列 
举 几 位 。 斯 科 特 : 柯 元 帕特里克 是 一 位 物理 学 家 〈 在 第 7 章 中 已 经 介绍 
过 ) ， 他 发 明了 一 种 让 计算 机 先 “ 加 热 * 再 慢 慢 “冷却 *， 来 解决 计算 难题 
的 “模拟 退火 算法 *”。 塞 巴 斯 带 安 . 特 隆 是 一 位 计算 机 科学 家 (在 第 1 章 中 
介绍 过 ) ， 他 赢得 了 2005 年 DARPA 自 动 芍 驶 挑战 大 赛 ， 为 今天 的 自动 
芍 驶 汽车 打开 了 大 门 。 达 关 妮 :科勒 (Daphne Koller) 是 一 位 计算 机 科 
学 家 ， 也 是 Coursera (将 在 第 12 章 介绍 ) 的 联合 创始 人 ， 开 创 了 莫 课 领 
域 的 先河 。 


大 数据 促成 了 深度 学 习 的 腾飞 。 不 久 前 ， 一 太 字 节 (terabyte， 即 
HILFT) 的 数据 还 需要 占用 整个 机 架 ， 而 现在 ， 在 单个 记忆 棒 上 就 
可 以 存储 一 太 字 市 的 数据 。 互 联网 公司 的 数据 中 心 存储 的 信息 以 拍 字 
T (petabyte) 计量 ， 每 拍 字 节 包 含 1024 太 字 节 (AF d -100 F 
T) 。 自 20 世 纪 80 年 代 以 来 ， 世 界 上 的 数据 量 每 三 年 翻 一 番 。 每 天 都 
有 数 千 拍 字 节 的 数据 被 上 传 到 互联 网 上 ， 其 总 容量 达到 了 泽 字 节 

(zettabyte， 即 100 万 拍 字 节 ， 或 102 5E D) 。 大 数据 爆炸 的 影响 不 仅 
体现 在 科学 和 工程 领域 ， 也 延伸 到 了 社会 生活 的 方方面面 。 如 果 没 有 
互联 网 上 的 数 百 万 张 图 像 和 其 他 标签 数据 ， 就 无 法 训练 真正 的 大 型 深 
度 学 习 网 络 。 

世界 各 地 的 大 学 都 在 为 数据 科学 建立 新 的 中 心 、 人 研究 机 构 和 科 
Ao MATCH (Alex Szalay) A 1998 年 以 来 ， 怠 在 斯 隆 数 字 巡 天 
mH (Sloan Digital Sky Survey， 下 文 简称 SDSS; http://www.sdss.org/) 
中 收集 天 文 数据 。2009 年 ， 和 凭借 自己 的 这 份 经 历 ， 他 在 约翰 . 霍 普 金 斯 
大 学 建立 了 数据 密集 工程 和 科学 研究 所 (Institute for Data Intensive 
Engineering and Science， 简 称 IDIES) 。SDSS 使 得 天 文学 家 收集 的 数据 


总 量 成 千 倍 地 增长 ， 是 当今 世界 上 被 使 用 次 数 最 多 的 天 文学 设施 。 然 
而 ， 正 在 建设 中 的 大 型 综合 性 天 空 巡 天 望远镜 (Large Synoptic Sky 
Survey Telescope, https://www.lsst.org/) 收集 的 拍 字 节 规 模 的 数据 集 ， 
将 超越 斯 隆 数 字 芝 天 项 目 收集 的 太 字 节 规 模 的 数据 集 达 1000 倍 之 多 。 
2013 年 ， 当 杨 立 昆 在 纽约 大 学 创立 数据 科学 中 心 时 ， 每 个 科 系 都 有 老 
师 带 着 手中 的 数据 去 拜访 他 。2018 年 ， 加 州 大 学 圣 迭 龙 分 校 建立 了 新 
的 Halcaognu 数 据 科 学 研究 所 。 数 据 科 学 硕士 学 位 (Master's in Data 
Science degrees， 简 称 MDSs) 正 变 得 像 工商 管理 硕士 (MBA) 一 样 受 
NEJE © 
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2012 年 在 太 浩 湖 举行 的 NIPS 大 会 上 ， 深 度 学 习 领 域 的 研究 已 经 日 
ERA 〈 见 图 11-3) 。 在 这 次 大 会 上 ， 早 期 的 神经 网 络 先驱 杰 弗 里 - 辛 
顿 和 他 的 学 生 们 发 表 了 一 篇 论文 ， 文 中 指出 ， 多 层 神经 网 络 在 识别 图 
像 中 的 对 象 方面 性 能 非常 出 色 。[3] 这 些 网 络 不 仅 比 现 有 计算 机 的 视觉 
技术 更 好 ， 它 们 甚至 已 经 处 于 一 种 完全 不 同 的 更 高 层次 中 ， 更 加 接近 
人 类 的 表现 水 准 。《 纽 约 时 报 》 刊 登 了 一 篇 关于 深度 学 习 的 文章 ， 同 
时 Facebook 宣 布 与 另 一 位 深度 学 习 先 驱 杨 立 昆 合 作成 立 一 个 新 的 人 工 智 
能 实验 室 ， 由 后 者 担任 创始 实验 室 主 任 。 


Facebook 首 席 执 行 官 马 克 : 扎 克 伯 格 (Mark Zuckerberg) 参与 了 
2012 年 的 NIPS 深 度 学 习 研 讨 会 。 当 时 安保 成 了 令 人 头痛 的 问题 ， 但 也 
吸引 了 更 多 的 与 会 者 ， 我 们 不 得 不 分 流 了 一 部 分 人 到 另外 一 个 播放 会 
场 同步 视频 的 房间 。 在 之 后 的 招待 会 上 ， 我 被 介绍 给 了 扎 克 伯 格 ， 他 
间 了 些 关于 大 脑 的 问题 。 他 对 心智 理论 特别 感 兴 趣 。 在 心理 学 中 ， 有 
一 个 关于 心智 如 何 工 作 的 内 隐 理 论 ， 我 们 以 它 为 指导 来 理解 他 人 。 我 
们 给 朋友 发 短信 时 ， 并 没有 意识 到 在 打字 时 大 脑 做 出 的 许多 决定 。 扎 
克 伯 格 问 了 很 多 问题 。“ 我 的 大 脑 如 何 构建 我 自己 的 心理 模型 ? ”我 的 


大 脑 如 何 根据 经 验 来 创建 其 他 人 的 心理 模型 ? ”我 的 大 脑 如 何 预测 其 他 
人 的 未 来 行为 ? ”其 他 物种 有 没有 心智 理论 ? REER SET GT 
合作 组 织 了 一 个 关于 心智 理论 的 研讨 会 ， 扎 区 伯 格 想 要 研讨 会 上 所 有 
的 参考 货 料 。 
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图 11-3 EAT 25 7)1]2012 NIPS 大 会 是 深度 学 习 领域 的 一 个 转折 点 ， 让 “神经 ”重新 回归 
了 “神经 信息 处 理 系统 ”。 图片 来 源 ，NIPS 基 金 会 。 


在 机 恬 学 习 中 ， 谁 拥有 最 多 的 数据 ， 谁 束 是 民 家， 显然 Facebook 所 
拥有 的 天 于 人 们 点 赞 、 好 友和 照片 的 数据 让 其 他 人 只 能 望 其 项 背 。 利 
用 所 有 这 些 数 据 ，Facebook 可 以 创建 我 们 的 心智 理论 ， 并 用 它 来 预测 我 
们 的 侦 好 和 政治 倾 句 ， 甚 至 有 一 天 可 能 会 比 我 们 更 了 解 我 们 上 自己 。 
Facebook 有 朝 一 日 会 成 为 奥 威 尔 小 说 中 老大 哥 的 化 身 吗 ? [8] 你 会 觉得 
这 是 一 个 令 人 不 寒 而 栗 的 前 景 ， 还 是 发 现 有 一 个 能 满足 你 需求 的 数字 
管家 很 方便 ? 我们 可 能 会 问 Facebook 是 否 应 该 拥有 这 种 权力 ， 但 在 这 个 
问题 上 我 们 也 许 并 没有 多 少 发 言 权 。 


尽管 我 们 在 太 浩 湖 的 赌场 举办 了 2012 年 和 2013 年 的 NIPS 大 会 ， 但 
与 会 者 都 避 开 了 赌 保 。 他 们 知道 赌场 庄家 获胜 的 可 能 性 更 大 ， 更 何 
况 ， 他 们 正在 做 的 事情 比 赌博 更 令 人 兴奋 。 赌 博 会 让 人 上 闻 ， 那 是 因 
为 多 巴 胺 奖励 预测 误差 系统 是 我 们 大 脑 的 一 部 分 (ZEB IO Pit ie 
B) 。 赌 场 已 经 优化 了 有 利于 博彩 的 条 件 : 获得 巨大 回报 的 允诺 ， 随 
机 间隔 的 偶然 小 胜 (奖励 ) 一 一 研究 已 经 证 明 ， 这 是 保持 实验 室 老鼠 
不 停 按 下 食物 按钮 的 最 佳 方式 ;在 老虎 机 上 获胜 时 触发 的 声音 和 灯 
光 ; BREAN IC, AACA KON Se SIE AY Ao 
JF. ARIK PIE o PINKO, ERG RTGS © 

在 蒙特 利 尔 召开 的 2015 年 NIPS 大 会 上 ，3800 名 国际 与 会 者 拥 入 了 
蒙特 利 尔 会 议 中 心 。 会 议 开场 时 的 深度 学 习 课程 环节 非常 受 欢 迎 ， 导 
致 人 满 为 患 。 出 于 防火 安全 方面 的 考虑 ， 我 们 不 得 不 遗 散 了 一 些 人 。 
高 科技 行业 中 几乎 所 有 拥有 大 数据 的 公司 都 采用 了 深度 学 习 技 术 ， 这 
一 趋势 正在 以 更 快 的 速度 扩散 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 开 
始 前 两 周 ， 我 们 将 与 会 人 数 限制 在 5400 名 。 一 个 从 纽约 飞 来 的 人 很 失 
望 地 发 现 他 无 法 在 现场 注册 。2017 年 在 长 滩 举 行 的 NIPS 大 会 在 注册 开 
放 12 天 后 就 限制 注册 了 ， 与 会 者 达到 了 8000 人 。 如 采 目 2014 年 以 来 ， 
每 年 出 席 会 议 的 人 数 按 509% 的 增 速 持续 下 去 ， 那 么 最 终 地 球 上 的 每 个 
人 都 会 想 参 加 NIPS 大 会 。 当 然 ， 泡 沫 最 终 会 破裂 ， 但 是 与 大 多 数 泡 沫 
一 样 ， 没 有 人 知道 这 事 儿 什么 时 候 会 发 生 。 

来 自 科 学 和 工程 部 门 的 许多 研究 人 员 继 续 聚 集 在 NIPS 大 会 上 ，30 
年 来 年 年 如 此 。 不 过 ， 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 ，5400 名 
与 会 者 中 有 40% 的 人 是 第 一 次 参加 会 议 。 在 2016 年 之 前 ，NIPS 基 金 董 
事 会 都 明智 地 决定 让 会 议 保持 在 单一 会 场 举行 ， 这 对 于 大 型 会 议 来 说 
很 少见 。 其 背后 的 初衷 ， 是 让 每 个 人 都 能 坐 在 同一 个 房间 里 ， 防 止 场 
地 分 散人 化。 但 在 2016 年 ， 单 一 会 场 变 成 了 双 会 场 ， 因 为 很 难 再 找到 足 
够 大 的 房间 装 下 所 有 人 。 尽 管 如 此 ， 这 也 远 远 少 于 大 多 数 其 他 大 型 会 
议 中 常见 的 10 个 会 场 。NIPS 的 文章 接受 率 一 直 保 持 在 20% 左 右 ， 低 于 
大 多 数 期 刊 的 接受 率 。NIPS 在 2016 年 举办 了 “机 器 学 习 中 的 女 


KE" (Women in Machine Learning, (Si&WiML) ix, Z WERE 
带 来 近 600 名 女性 与 会 者 〈 占 与 会 者 总 人 数 的 10%) ， 有 1000 名 女性 参 
加 了 2017 年 在 长 滩 举 行 的 会 议 。 多 样 性 继续 成 为 NIPS 大 会 的 标志 。 没 
有 任何 一 个 领域 能 够 独立 汇集 创造 了 深度 学 习 的 多 样 化 人 才 。 

也 许 让 人 感到 意外 的 是 ， 虽 然 具 备 了 影响 如 此 多 行业 的 潜力 ， 保 
护 深度 学 习 知 识 产权 的 专利 却 很 少 。 在 20 世 纪 80 年 代 ， 我 们 硕 望 能 让 
学 习 算 法 成 为 一 个 新 的 科学 领域 的 基础 ， 同 时 认为 获得 专利 对 此 起 不 
到 什么 积极 的 作用 。 毫 无 疑问 ， 现 在 很 多 公司 已 经 为 深度 学 习 的 特殊 
应 用 提交 了 专利 ， 因 为 公司 不 会 在 没有 你 护 的 情况 下 对 新 技术 进行 大 
规模 投资 。 


为 未 来 做 准备 


神经 网 络 学 习 的 重大 突破 每 30 年 融会 发 生 一 次 ， 从 20 世 纪 50 年 代 
引入 感知 器 开始 ， 到 20 世 纪 80 年 代 学 习 多 层 感 知 器 算法 ， 再 到 2010 年 
开始 兴起 深度 学 习 。 其 中 每 个 阶段 都 经 历 了 一 段 繁 采 期 ， 在 短 时 间 内 
取得 了 飞跃 性 的 进展 ， 随 后 便 是 较 长 时 期 的 缓慢 发 展 。 但 是 其 中 一 个 
不 同 点 在 于 ， 随 着 每 次 复兴 ， 兴 盛 时 期 的 影响 一 直 有 增 无 减 。 最 新 的 
增长 动力 来 源 于 大 数据 的 普及 ， 而 NIPS 的 故事 早 就 为 这 一 天 的 到 来 做 
好 了 谁 备 。 


[1] NIPS 会 议 中 的 所 有 文章 都 可 以 在 网 络 上 获取 : https://nips.cc/ ° 

[2] 为 了 体验 生物 学 家 的 行 话 ， 请 参考 从 最 近 的 一 篇 科学 综述 中 随机 抽取 的 这 句 话 : "IPAE 
胶 质 细胞 包含 多 种 抑制 轴 突 再 生 的 蛋 日 质 ， 包 括 角 磷脂 相关 糖 蛋 日 ， 神 经 突 生 长 抑制 剂 ‘/Nogo? 
， 少 突 胶 质 细胞 髓 鞘 糖 蛋白 和 信号 素 ”。 (“Oligodendrocytes present a variety of proteins 
inhibitory to axon regrowth,including myelin-associated glycoprotein, the neurite-outgrowth inhibitor 


‘Nogo,’oligodendrocyte-myelin glycoprotein, and semaphorins.") B. Laha, B. K. Stafford,and A. D. 
Huberman, “Regenerating Optic Pathways from the Eye to the Brain,"Science 356, no. 6342 (2017): 
1032. 


[3] 这 位 神经 学 家 是 霆 华 德 : 瓦 克 特 尔 (Howard Wachtel) ， 他 当时 正在 科罗拉多 大 学 波 尔 
德 分 校 研 究 海 免 的 神经 系统 


[4] Engaged 一 词 既 有 “订婚 ”之 意 ， 也 有 “致力 于 做 .………” 之 意 。 一 一 译 者 注 


o 


[5] Krizhevsky, Sutskever, and Hinton, *ImageNet Classification with Deep Convolutional 
Neural Networks." 


[6] George Orwell, Nineteen Eighty-Four (London: Secker & Warburg, 1949). 这 本 书 最 近 有 了 
新 的 含义 。 

[7] “机 器 学 习 中 的 女性 ” (Women in Machine Learning) 这 一 组 织 成 立 于 2006 年 ， 为 机 器 学 
习 领 域 的 女性 创造 了 机 会 ， 并 推动 了 她 们 的 研究 。 请 参阅 http://wimlworkshop.org。 
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要 事 年 表 


1971 年 


诺 姆 . 乔 姆 斯 基 (Noam Chomsky) 在 《纽约 书评 》 杂 志 上 发 表 了 
《针对 斯 金 纳 的 驳 奈 》 (The Case against B. F. Skinner) —JX, xm 
长 文 诱导 一 代 认 知 科学 家 偏离 了 对 学 习 行为 的 研究 。 
1982 年 


克 劳 德 :香农 (Claude Shannon) 出 版 了 开创 性 的 书籍 《通信 的 数 
学 理论 》 (A Mathematical Theory of Communication ) ， 该 书 为 当代 
数字 通信 技术 黄 定 了 基础 。 
1989 年 


卡 弗 . 米 德 (Carver Mead) 出 版 了 著作 《模拟 大 规模 集成 电路 和 
神经 系统 》 (Analog VLSI and Neural Systems ) ， 开 创 了 基于 仿生 芯 
片 的 神经 形态 工程 (neuromorphic engineering) 研究 领域 。 

2002 年 


Drie TKR RAB (Stephen Wolfram) 出 版 了 书籍 《一 种 新 的 
科学 》 (A New Kind of Science) 。 这 本 书 探究 了 细胞 自动 机 
(cellular automata) 的 计算 能 力 ， 这 些 算法 比 神经 网 络 更 简单 ， 但 是 
仍 能 完成 强大 的 运算 。 
2005 年 
塞 巴 斯 带 安 . 特 隆 的 团队 赢得 了 DARPA 自 动 驾 驶 汽车 大 赛 。 


2008 年 


托 拜 厄 斯 -德尔 布 吕 克 (Tobias Delbrück) 研发 了 一 种 非常 成 功 的 
脉冲 视网膜 芯片 “动态 视觉 传感器 ” (Dynamic Vision Sensor, ， 简 称 
DVS) ， 这 种 传感器 采用 异步 峰值 ， 而 不 是 像 现 在 的 数字 摄像 机 利用 
同步 帧 进行 图 像 捕获 。 


2013 年 


白宫 宣布 启动 美国 BRAIN 计 划 ”， 开 发 创新 的 神经 技术 ， 以 加 速 
我 们 对 大 脑 功能 的 理解 。 


12 
智能 时 代 


认 知 计算 的 时 代 即 将 到 来 。 很 快 我 们 束 会 拥有 比 人 类 敬 驶 技术 更 
高 超 的 自动 要 驶 汽车 。 我 们 的 房子 会 识别 出 我 们 的 吴 份 ， 预 见 我 们 的 
习惯 ， 有 客人 到 访 时 会 提醒 我 们 。 最 近 被 谷歌 收购 的 众 包 网 站 Kaggle， 
曾经 举办 过 一 次 奖金 为 100 万 美元 的 用 CT 扫 摘 图 进行 肺癌 检测 的 竞赛 ， 
它 还 为 美国 国土 安全 部 举办 了 一 场次 金 达 150 万 美元 的 竞赛 ,希望 寻找 
到 能 在 机 场 安 检 时 检测 出 藏匿 物 的 技术 。 UL 通过 认 知 计算 ， 医生 的 助 
理 将 有 能 力 诊 断 罕 见 疾病 ， 提 高 整体 医疗 水 平 。 我 们 已 经 有 了 数 千 个 
这 样 的 应 用 ， 将 来 还 会 出 现 更 多 类 似 的 应 用 。 有 些 工 作 会 被 淘汰 ， 有 
些 则 将 被 创造 出 来 。 尽 管 认 知 计算 技术 十 分 具有 题 覆 性 ， 我 们 的 社会 
还 需要 时 间 来 吸收 和 适应 ， 但 它 对 人 类 来 说 并 不 构成 生存 威胁 。 相 
反 ， 我 们 正在 进入 一 个 发 现 和 局 蒙 的 上 时代， 我 们 会 变 得 更 聪明 ， 更 长 
尝 ， 人 类 文明 也 会 变 得 更 加 繁 采 。 

2015 年 ， 我 曾 在 由 IBM 赞 助 的 旧金山 认 知 计算 会 议 上 发 表演 讲 。 
[2] IBM 当 时 正在 对 沃 森 (Watson) 项 目 进 行 大 规模 投资 ， 沃 森 是 一 个 
基于 大 量 事实 数据 库 集合 的 程序 ， 禾 盖 信 息 的 范围 从 历史 到 流行 文 
化 ， 包 罗 万 象 ， 可 以 使 用 自然 语言 接口 的 各 种 算法 进行 查询 。 肯 : 詹 宁 
斯 (Ken Jennings) 曾经 连续 192 天 在 74 场 智力 竞赛 节目 《危险 边缘 》 
(Jeopardy! ) 中 赢得 了 胜利 ， 这 是 该 游戏 节目 历史 上 最 长 的 连 胜 纪 
录 。2011 年 ， 沃 森 在 该 节目 中 击败 了 詹 宁 斯 ， 该 事件 引起 了 全 世界 的 
注意 。 

在 从 酒店 出 发 到 会 场 的 出 租车 上 ， 我 无 意 中 听 到 了 后 座 两 名 IBM 管 
理 人 员 的 谈话 。IBM 当 时 正 要 推出 一 个 围绕 沃 森 的 平台 ， 该 平台 可 使 用 
非 结 构 化 数据 库 ， 来 组 织 和 回答 健康 和 金融 服务 等 专业 领域 的 问题 。 


沃 森 掌握 的 数据 比 任何 人 可 能 知道 的 还 要 多 ， 可 以 回答 问题 并 提出 建 
议 。 当 然 ， 与 其 他 机 器 学 习 程序 一 样 ， 它 仍然 需要 人 类 提出 问题 ， 并 
从 给 出 的 建议 中 进行 选择 。 

IBM 早 已 裁撤 掉 了 硬件 部 门 ， 其 计算 机 服务 部 门 也 早已 风光 不 再 。 
IBM 在 沃 森 上 花费 了 巨 资 ， 想 要 依靠 其 软件 部 门 来 帮忙 完成 700 亿 美元 
的 营 收 计划 。 该 公司 在 慕尼黑 已 为 沃 森 物 联网 业务 投资 了 2 亿美 元 用 来 
建立 新 的 全 球 总 部 ， [3] 这 是 IBM 在 欧洲 有 史 以 来 最 大 的 一 笔 投 资 ， 为 
的 是 满足 6000 多 个 客户 不 断 增 长 的 利用 人 工 智 能 来 改造 运营 业务 的 需 
求 IBM 计 划 在 全 球 投入 30 亿 美元 来 发 展 认 知 计算 ， 而 这 只 是 其 全 球 
计划 的 一 部 分 。 但 许多 其 他 公司 也 在 对 AI 进行 重大 投资 ， 现 在 想 要 断 
言 哪些 投注 会 赢 ， 哪 些 会 输 ， 还 为 时 尚 早 。 


21 世 纪 的 生活 


在 传统 医学 中 ， 通 常 采 用 相同 的 治疗 方法 对 所 有 患 有 特定 病症 或 
疾病 的 患者 进行 治疗 ， 但 现在 有 了 认 知 计算 ,治疗 已 变 得 更 加 个 性 
化 ， 也 更 精确 。 例 如 黑色 素 瘤 ， 过 去 患 上 这 种 疾病 的 人 束 等 同 于 被 判 
了 死刑 ， 但 现在 已 经 可 以 通过 对 患者 的 癌 细 胞 进行 基因 测序 ， 并 针对 
其 病症 设计 出 独特 的 况 症 免疫 疗法 ， 以 停止 其 至 逆转 黑色 素 瘤 的 病情 
发 展 。 虽 然 这 种 疗法 目前 的 治疗 费用 为 25 万 美元 ， 但 当 对 患者 癌症 基 
因 组 测序 的 基础 成 本 降 至 几 千 美元 ， 并 且 研 制 所 需 单 克 隆 抗体 的 成 本 
仅 为 几 百 美元 时 ， 最 终 几 乎 每 个 黑色 素 瘤 患 者 都 有 能 力 负担 相关 的 医 
疗 费 用 。 从 大 量 患 者 那里 收集 到 足够 多 变异 和 疗效 方面 的 数据 后 ， 医 
疗 决 策 将 变 得 更 好 ， 且 收费 更 低 。 一 些 类 型 的 肺 瘤 也 可 以 用 相同 的 方 
法 进行 治疗 。 制 药 公司 正在 投资 瘤 钙 免疫 治疗 人 研究， 许多 其 他 种 类 的 
癌症 也 许 很 快 就 能 被 治愈 。 如 果 没 有 机 器 学 习 方 法 来 分 析 大 量 遗 传 数 
据 ， 这 一 切 都 不 可 能 实现 。 


我 曾 担任 过 NIH 院 长 的 顾问 委员 会 成 员 ， 为 推进 “BRAIN 计 划 ” 提 供 
建议 。 我 们 的 报告 强调 了 概率 和 计算 技术 的 重要 性 ， 该 技术 能 帮助 我 
们 解释 由 新 的 神经 记录 技术 产生 的 数据 。 A 机 器 学 习 算法 现在 被 用 于 
分 析 同 时 来 自 数 千 个 神经 元 的 记录 ， 分 析 来 自 自 由 移动 动物 的 复杂 行 
为 数据 ， 以 及 从 电子 显微镜 的 一 系列 数字 图 像 中 自动 重建 三 维 解 剖 回 
路 。 通 过 对 大 脑 进行 逆向 工程 ， 我 们 将 揭秘 自然 界 自身 发 现 的 许多 新 
算法 。 

NIH 在 过 去 的 50 年 中 资助 了 神经 科学 的 基础 研究 ， 但 当前 的 趋势 是 
将 越 来 越 多 的 资助 转向 了 能 够 尽快 实现 医疗 应 用 的 转化 研究 。 我 们 当 
然 希 望 能 转化 已 经 发 现 的 技术 ， 但 如 果 现 在 不 为 新 的 发 现 提供 资金 ， 
那么 从 现在 开始 的 50 年 里 ， 我 们 几乎 或 根本 没有 任何 技术 可 应 用 于 临 
床 。 这 也 是 为 什么 现在 就 开展 一 些 基 础 研究 项 目 非 常 重要 ， 例 
如 “BRAIN 计 划 ”， 该 举措 能 够 帮助 我 们 找到 在 未 来 治疗 精神 分 裂 症 和 
阿尔 效 海 默 症 等 衰弱 性 脑 部 疾病 的 方法 。 l 


未 来 的 号 份 认 证 


2006 年 ， 墨 客 从 美国 退伍 军人 事务 部 一 个 员工 家 中 的 电脑 里 窃取 
了 2650 万 退伍 军人 的 社会 安全 号 码 和 出 生日 期 信息 。 退 伍 军 人 行政 处 
当时 是 使 用 社会 安全 号 码 作 为 其 系统 中 的 退伍 军人 标识 符 ， 黑 客 甚 至 
都 不 需要 解密 数据 库 。 有 了 社会 安全 号 码 和 出 生日 期 ， 黑客 可 以 盗 取 
任何 人 的 喘 份 信息 。 


在 印度 ， 超 过 10 亿 的 公民 可 以 通过 指纹 、 虹 膜 扫 描 、 照 片 和 12 位 
身份 号 码 〈 比 社会 安全 号 码 多 3 位 数字 ) 信息 进行 唯一 的 身份 识别 。 印 
度 的 Aadhaar 是 世界 上 最 大 的 生物 特征 识别 项 目 。 在 以 往 ， 一 位 想 要 得 
到 一 份 公共 文件 的 印度 公民 会 经 历 无 尽 的 等 待 ， 这 个 过 程 中 还 会 涉及 
许多 中 间 人 ， 每 个 人 都 会 向 他 索取 贿赂 。 而 如 今 ， 通 过 快速 生物 扫 
描 ， 公 民 可 以 直接 获得 补贴 食品 权 和 其 他 福利 待遇 ， 许 多 没有 出 生 证 


明 的 穷人 现在 也 拥有 了 便携 式 身份 认证 ， 可 随时 随地 在 几 秒 钟 内 识别 
出 身份 。 以 欺骗 手 段 获取 福利 的 身份 盗窃 行为 已 经 销声匿迹 了 。 一 个 
人 的 身份 已 经 无 法 再 被 窃 ， 除 非 小 偷 准备 切断 这 个 人 的 手指 并 摘除 他 
的 眼球 。 [6] 


“印度 国家 登记 处 ”是 南 丹 : 尼 勒 卡 尼 (Nandan Nilekani) [Z 做 了 7 
年 的 一 个 项 目 ， 他 是 一 个 亿 万 富 倘 ， 并 且 是 印度 外 包公 司 Infosys 的 联 
合 创始 人 。 尼 勒 卡 尼 庞 大 的 数字 数据 库 已 经 帮助 印度 在 身份 数字 化 方 
面 超越 了 许多 发 达 国 家 。 根 据 尼 勒 卡 尼 的 说 法 : “一 个 小 的 增 量 变化 乘 
以 10 亿 ， 就 是 一 个 巨大 的 飞跃 。..………. 如 果 10 亿 人 能 够 在 15 分 钟 内 拿 到 
手机 ， 而 不 用 花 上 一 周 ， 那 么 这 将 为 经 济 注入 一 股 巨 大 的 生产 力 。 如 
果 有 100 万 人 能 让 资金 自动 进入 他 们 的 银行 账户 ， 这 将 是 经 济 上 巨大 的 
生产 力 飞 跃 。”[g] 


在 享受 拥有 数字 身份 数据 库 带 来 的 便利 的 同时 ， 我 们 也 失去 了 隐 
私 ， 尤 其 是 当 生 物 识别 码 与 其 他 数据 库 (如 银行 账户 、 医 疗 记 录 和 犯 
PWR) 以 及 其 他 公共 计划 (如 运输 ) 相关 联 时 。 隐 私 泄露 问题 在 美 
国 和 许多 其 他 数据 库 间 互 相关 联 的 国家 已 经 很 居 重 了 ， 即 使 它们 的 数 
据 是 匿名 的 。[3] 显而易见 ， 无 论 我 们 是 否 愿意 ， 我 们 的 手机 都 已 经 在 
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影 经 常 将 人 工 智能 描述 为 像 人 类 一 样 走路 和 说 话 的 机 器 人 。 不 
要 指望 AI 看 上 去 像 1984 年 的 科幻 电影 《终结 者 》 里 操 着 德国 口音 的 终 
结 者 那样 。 不 过 ， 你 会 与 2013 年 的 科幻 电影 《她 》 中 萨 曼 莎 一 样 的 AI 
声音 交流 ， 并 和 2017 年 科幻 电影 《星球 大 战 : 原 力 觉醒 》 中 R2-D2 和 
BB-8 一 类 的 机 器 人 进行 互动 。AI 已 经 是 日 常生 活 的 一 部 分 。 认 知 设 
备 ， 比 如 亚马逊 Echo 智能 音箱 的 语音 助理 Alexa， 已 经 能 和 你 交谈 ， 并 


很 高 兴 能 让 你 的 生活 更 轻松 ， 更 有 满足 感 ， 就 像 2017 年 电影 《美女 与 
野 胃 》 中 的 时 钟 和 茶具 一 样 。 生 活 在 一 个 拥有 那样 物种 的 世界 里 会 是 
什么 样子 呢 ? 来 看 看 我 们 到 癌 社 交 机 名 人 的 第 一 步 吧 。 

目前 ， 人 工 智 能 的 进展 主要 集中 在 感 时 和 认 知 方面 ， 运 动 和 行为 
智能 的 进展 还 未 见 端倪 。 有 时 我 演讲 的 开场 白 便 是 ， 大 脑 是 已 知 宇宙 
中 最 复杂 的 设备 。 但 我 的 妻子 比 阿 特 丽 斯 是 一 位 医生 ， 她 经 常 提 醒 我 
w, AiR eS AN abo, MARA RAR, RE SANA 
性 (从 运动 性 演变 而 来 ) 是 不 同 的 。 

我 们 的 肌肉 、 肌 腿 、 皮 肤 和 胃散 能够 积极 地 适应 世界 的 变迁 、 地 
心 引 力 和 其 他 同类 。 从 内 部 来 说 ， 我 们 的 号 体 是 化 学 加 工 的 奇迹 ， 可 
以 将 食物 转化 为 做 工 精 细 的 号 体 部 件 。 它 们 是 由 内 而 外 工作 的 终极 3D 
打印 机 。 我 们 的 大 脑 从 身体 各 个 部 分 的 内 脏 传感器 获得 输入 ， 这 些 传 
感 器 不 断 监测 喘 体 内 部 活动 ， 包 括 最 高 层次 的 皮层 表征 ， 束 内 部 优先 
事项 做 出 决定 ， 并 在 所 有 相互 竞争 的 要 求 之 间 维 持平 衡 。 从 真正 意义 
上 来 说 ， 我 们 的 身体 是 大 脑 不 可 或 缺 的 组 成 部 分 ， 这 是 具 续 认 知 

(embodied cognition) 的 核心 原则 。 [10] 


哈 维 尔 : 莫 维 兰 (Javier Movellan) ” (图 12-1) 来 自 西班牙 ， 曾 经 是 
加 州 大 学 圣 送 戈 分 校 神经 计算 研究 所 机 器 感知 实验 室 的 教员 和 联合 主 
任 。 他 相信 ， 通 过 打造 能 够 与 人 类 互动 的 机 器 人 人， 我们 将 比 采 用 传统 
实验 研究 更 多 地 了 解 认 知 。 他 搭建 了 一 个 机 器 人 婴儿 ， 当 你 对 它 微笑 
时 ， 它 也 对 你 微笑 ， 左 得 路 人 的 喜爱 。 哈 维尔 研究 了 遇 儿 与 母亲 的 互 
动 ， 他 得 出 的 结论 是 ， 凡 儿 会 尽量 从 母 杀 那里 获得 更 多 的 微笑 ， 同 时 
尽量 减少 自己 的 努力 。 M 

哈 维 尔 搭 建 的 最 著名 的 社交 机 器 人 Rubi 看 起 来 像 是 一 个 天 线 宝宝 
(Teletubby) ， 有 着 丰富 的 面部 表情 ， 眉 毛 能 够 扬 起 表现 出 有 兴趣 ， 
相机 眼睛 能 够 转 来 转 去 ， 手 臂 也 可 以 抓 取 东西 ( 见 图 12-2) 。 在 加 州 
大 学 圣迭戈 分 校 儿 童 早 期 教育 中 心 ，18 个 月 大 的 幼儿 通过 Rubi 腹 部 的 
平板 与 它 进行 互动 。 


图 12-1 HEK SCA = EIN CE ER e RD La AT ae ERT 《科学 网 络 》 数 字 论 
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大 幼儿 的 注意 。 图 片 来 源 ， 罗 杰 - 宾 汉 姆 。 
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幼儿 很 难 取 悦 ， 他 们 的 注意 力 非常 短 特 。 他 们 玩 几 分 钟 玩具 就 会 
失去 兴趣 ， 把 它们 扔 到 一 边 。 他 们 会 如 何 与 Rupi 互 动 呢 ? 为 了 安全 起 
见 ，Rubi 不 是 按照 工业 强度 打造 的 ， 于 是 第 一 天 ， 男 孩 们 就 扯 掉 了 它 
的 胜 膊 。 经 过 一 些 修 理 和 加 载 软件 补丁 后 ， 哈 维尔 再 次 进行 了 党 试 。 

一 次 ， 机 器 人 要 执行 的 程序 是 ， 当 手臂 被 拉 开 时 要 放声 大 名 。 这 阻 
止 了 男孩 们 的 “暴力 ”行为 ， 并 且 让 女孩 们 争 相 拥抱 Rubi。 这 是 社交 工程 
领域 学 到 的 重要 一 读 。 


幼儿 通过 指向 房间 内 的 物体 〈《 如 时 钟 ) 与 Rubi o er 
能 在 0.5~1.5 秒 的 时 间 窗 口内 将 视线 移 癌 物体 ， 那 么 幼儿 束 会 失去 兴 
并 走 开 。 如 琳 反 应 太 快 ，Rubi 的 机 械 性 束 太 明显 了 ; 如 采 反 应 太 慢 ， 
Rubi 又 会 让 孩子 们 感到 很 无 聊 。 一 旦 互惠 关系 形成 ， 孩 子 们 就 会 将 Rubi 
看 作 是 一 个 有 感情 的 生命 ， 而 不 是 一 个 玩具 。 当 Rubi 被 带 走 (到 维修 
店 进行 升级 ) 后 ， 孩 子 们 会 感到 不 安 。 他 们 会 被 告知 Rubi 感 到 不 舒 
服 ， 会 在 家 休 已 一 天 。 在 一 项 研究 中 ，Rubi 被 要 求教 幼儿 学 习 分 兰 语 


单词 ， 他 们 学 习 的 速度 和 学 英语 单词 一 样 快 ， 教 他 们 学 习 一 首 流行 歌 
曲 的 效果 就 更 明显 了 。 [12] 
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图 12-2 Rubi 在 教室 里 与 幼儿 们 进行 互动 。Rubi 的 头 可 以 旋转 ， 眼 睛 是 相机 ， 嘴 和 眉毛 都 十 分 富 


有 表现 力 。Rubi 头 顶 上 浓密 的 光纤 会 随 着 它 的 心情 而 改变 颜色 。 图 片 来 源 : 哈 维尔 : 莫 维 兰 。 


之 前 对 将 Rubi 引 入 课 笔 环 境 的 顾虑 之 一 ， 是 教师 可 能 会 担心 目 己 
在 某 一 天 被 机 需 人 取代 。 但 事实 恰恰 相反 : 老师 对 Rubi 表 示 欢 迎 ， 
为 它 可 以 作为 一 位 辅助 管理 班级 秩序 的 助手 ， 特 别 是 在 教室 里 有 访客 
时 。 一 个 能 够 彻底 革新 早期 教育 的 实验 是 * 千 个 Rubi 项 目 ” (thousand 
Rubi project) 。 这 个 想法 是 批量 生产 Rubi， 将 它们 放 在 上 千 个 教室 
中 ， 每 天 通过 互联 网 从 数 千 次 实验 中 收集 数据 。 教 育 研究 的 一 个 问题 
是 ， 在 一 所 学 校 适 用 的 方案 可 能 不 适用 于 另 一 所 学 校 ， 因 为 学 校 之 间 


存在 很 多 差异 ， 竺 别 是 教师 之 间 的 差异 。“ 千 个 Rubi 项 目 ” 也 许 能 够 考察 
许多 关于 如 何 改进 教育 实践 的 想法 ， 并 且 可 以 探究 在 各 地 服务 于 不 同 
宪 会 经 济 群体 的 学 校 之 间 的 差异 。 虽 然 能 够 让 项 目 开 展 起 来 的 货源 
直 没 有 到 位 ， 但 这 仍然 是 一 个 好 主意 ， 应 该 有 人 来 跟 进 。 


双 腿 站 立 的 机 器 人 很 不 稳定 ， 需 要 一 个 复杂 的 控制 系统 来 防止 它 
们 翻 倒 。 而 且 事 实 上 ， 婴 儿 需 要 12 个 月 才能 学 会 走路 而 不 会 摔 倒 。 在 
第 2 章 中 已 经 做 过 简短 介绍 的 罗 德 尼 . 布 鲁 克 斯 ( 见 图 12-3) ， 想 要 打造 
能 够 像 昆虫 一 样 走路 的 6 条 腿 机 器 人 。 他 发 明了 一 种 新 型 控制 器 ， 可 以 
对 6 条 腿 的 动作 进行 排序 ， 能 够 让 机 器 人 虹 螂 癌 前 移动 并 保持 稳定 。 他 
那 开 创 性 的 想法 是 ， 让 腿 部 与 环境 进行 的 机 械 交 互 作用 代替 抽象 的 计 
划 和 计算 。 他 认为 ， 要 让 机 器 人 完成 日 党 任务， 它们 较 高 的 认 知 能 
应 该 基于 感官 运动 (sensorimotor) 与 环境 的 相互 作用 ， 而 不 是 抽象 的 
推理 。 大 象 具 有 高 度 的 社会 性 ， 有 着 强大 的 记忆 力 ， 并 且 还 是 器 械 天 
A, US) 但 它们 不 会 下 国际 象棋 。 HA 1990 年 ， 布 鲁 克 斯 继续 创立 了 
iRobot， 运 今 为 止 已 经 卖 掉 了 超过 1000 万 个 Roombas 扫 地 机 器 人 来 清洁 
更 多 的 地 板 。 


工业 机 器 人 具有 坚硬 的 天 广 和 强大 的 伺服 电机 ， 这 使 得 它们 看 起 
来 和 感觉 起 来 都 很 机 械 化 。2008 年 ， 布 鲁 元 斯 创立 了 Rethink Robotics 
公司 ， 该 公司 设计 出 了 一 个 关 市 柔 官 ， 可 以 转动 手 辟 的 机 絮 人 Baxter 。 
它 的 每 个 手臂 可 以 按 要 求 来 移动 ， 还 会 自行 编程 以 重复 执行 过 的 动作 
顺序 ， 人 们 不 必 再 编写 一 个 程序 来 移动 Baxter 的 手臂 了 。 
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图 12-3 罗 德 尼 : 布 鲁 克 斯 在 观察 机 器 人 Baxter， 它 正 准备 将 一 个 塞 盖 插 入 桌 上 的 一 个 洞 中 。 布 鲁 
克 斯 是 一 位 连续 创业 者 ， 之 前 创建 了 iRobot， 生 产 了 扫地 机 器 人 Roombas， 现 在 他 又 创建 了 
Rethink， 生 产 Baxter。 图片 来 源 ， 罗 德 尼 -: 布 鲁 克 斯 。 


莫 维 兰 比 布鲁克 斯 更 进一步 ， 开 发 出 了 一 种 名 为 "Diego San”( 在 
日 本 制造 ) 的 机 器 人 宝宝 LS) ， 其 电动 机 是 气动 的 〈 由 气压 驱动 ) ， 
对 比 大 多 数 工业 机 器 人 使 用 的 刚性 转 矩 电机 ，Diego San 所 有 的 44 个 关 
节 都 更 柔软 ( 见 图 12-4) 。 制 作 它们 是 基于 这 样 一 个 灵感 : 当 我 们 拿 
起 某 件 东 西 时 ， 我 们 身体 中 的 每 一 块 肌肉 都 会 在 一 定 程度 上 被 牵动 
(如 果 我 们 一 次 只 移动 一 个 关节 ， 看 起 来 就 会 像 机 器 人 ) 。 这 使 我 们 
能 够 更 好 地 适应 不 断 变 化 的 负载 情况 以 及 与 世界 的 互动 。 大 脑 可 以 同 
时 自然 流畅 地 控制 身体 中 的 所 有 自由 度 一 一 所 有 关节 和 肌肉 一 ”而 
DiegoSan 项 目的 目标 是 找 出 大 脑 是 怎么 做 到 这 一 点 的 。Diego San 的 脸 
上 有 27 个 运动 部 件 ， 可 以 表达 各 种 各 样 的 人 类 情感 。 【16] 机 器 人 宝宝 
的 动作 非常 逼真 。 虽 然 哈 维 尔 有 几 个 成 功 的 机 器 人 项 目 ， 但 Diego San 
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样 流 畅 。 


图 12-4 机 器 人 宝宝 Diego San。 和 气压 传动 装置 让 所 有 关节 都 能 平稳 移动 ， 这 样 就 能 跟 人 类 握手 
了 。 面 部 由 大 卫 . 汉 森 (David Hanson) 和 汉 森 机 器 人 公司 提供 。 关 于 机 器 人 面部 表情 的 动画 ， 
可 以 参考 “Diego Imnstalled”， 由 哈 维 尔 . 莫 维 兰 提 供 ，https:/www.youtube.com/watch? 


v=knRyDcnUc4U/ ° 


机 器 已 经 会 识别 人 类 面部 表情 


你 能 想象 当 你 在 iPhone (苹果 手机 ) 上 看 到 股价 暴跌 ，iPhone 问 你 
为 什么 不 高 兴 ， 会 是 怎样 一 种 感觉 吗 ? 你 的 面部 表情 是 情绪 的 窗口 ， 


深度 学 习 现 在 已 经 可 以 探 进 这 个 窗口 了 。 传 统 上 ， 人 们 认为 认 知 和 情 
绪 是 大 脑 两 个 独立 的 功能 。 一 般 认 为 ， 认 知 是 皮层 功能 (cortical 
function) ， 而 情绪 是 皮层 下 的 功能 (subcortical function) 。 事 实 上 ， 
有 些 皮 层 下 结构 可 以 调节 情绪 状态 ， 比 如 奋 仁 核 (amygdala) 。 当 情绪 
水 平 很 高 ， 特 别 是 感到 入， 惧 的 时 候 ， 查 仁 核 承 会 起 作用 ， 但 这 些 结构 
与 大 脑 度 层 有 强烈 的 相互 作用 。 例 如 ， 在 社交 互动 中 ， 碍 仁 核 的 参与 
会 增强 人 脑 对 该 事件 的 记忆 。 认 知 和 情绪 是 彼此 交织 的 。 


在 20 世 纪 90 年 代 ， 我 与 加 州 大 学 旧金山 分 校 的 心理 学 家 保罗 . 艾 克 
& (PaulEkman) ”( 见 图 12-5) 有 过 合作 。 艾 克 曼 是 世界 著名 的 面部 表 
情 专家 ， 是 美剧 《 别 对 我 撒谎 》 (Lie to Me) 系列 中 卡尔 .莱特 曼 
(CalLightman) 博士 在 真实 世界 中 的 原型 ， 但 他 本 人 比 剧 中 的 卡尔 要 
和 善 很 多 。 艾 克 曼 兽 去 过 巴布亚 新 几内亚 ， 试 图 了 解 前 工业 时 代 的 文 
化 是 否 像 我 们 一 样 ， 能 够 做 出 情绪 化 的 面部 表情 。 他 在 研究 过 的 所 有 
人 类 社会 中 发 现 了 六 种 普遍 的 情感 表达 : BURG dE) BUR E 
烈 恨 和 厌恶 。 从 那 以 后 ， 其 他 常见 的 面部 表情 也 被 提取 了 出 来 ， 但 人 
们 在 对 这 些 表 情 的 理解 上 并 没有 达成 共识 。 有 些 表达 ， 如 恐惧 ， 在 一 
些 孤 立 的 社会 中 有 着 不 同 的 解释 。 

1992 年 ， 艾 克 曼 和 我 组 织 了 一 个 由 美国 国家 科学 基金 会 (NSF) ff 
助 的 关于 面部 表情 理解 的 规划 研讨 会 。 (LZ) 在 那个 时 期 ， 要 获得 对 面 
部 表情 研究 的 资金 困难 重重 。 我 们 的 研讨 会 将 神经 科学 、 电 子 工程 和 
计算 机 视觉 等 方面 的 研究 人 员 ， 连 同心 理学 家 聚集 到 了 一 起 ， 为 表情 
分 析 领 域 揭 开 了 新 篇 章 。 这 件 事 对 我 来 说 是 一 个 启示 ， 尽 管 面部 表情 
的 分 析 在 科学 、 医 学 和 经 济 等 诸多 领域 都 扮演 着 重要 角色 ， 但 其 重要 
性 却 一 直 被 基金 机 构 所 忽视 。 


图 12-5 1967F, RE eS AE ESLA ERER e 他 找到 了 6 种 常见 的 面 情感 表达 的 证 
据 ， 包 括 快 乐 、 翡 伤 、 愤 怒 、 惊 讶 、 伙 惯 和 厌恶 。 保 罗 曾 为 美剧 《 别 对 我 撤 谎 》 提 供 咨 询 ， 以 
保证 每 一 集 的 内 容 有 科学 依据 。 卡 尔 :莱特 曼 博 士 的 角色 大 至 上 是 以 艾 克 曼 为 原型 塑造 出 来 
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芯 克 曼 开发 了 面部 动作 编码 系统 (Facial Action Coding System, 以 
下 简称 FACS) 来 监控 面部 44 块 肌肉 的 状态 。 由 艾 克 曼 培 训 的 FACS 专 家 
需要 花费 一 个 小 时 来 标记 长 度 为 一 分 钟 的 视频 ， 每 次 标记 一 帧 。 面 部 
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时 还 会 暗示 无 意识 的 情绪 反应 。 例 如 | 在 婚姻 咨询 环节 中 出 现 的 细微 
的 厌恶 表情 ， 就 是 一 个 预示 婚姻 会 失败 的 可 靠 的 信号 。 [18] 
在 20 世 纪 90 年 代 ， 我 们 使 用 了 一 些 演 员 的 视频 录像 来 训练 反 向 传 
播 神经 网 络 ， 对 FACS 进 行 自 动 化 。 这 些 训练 有 素 的 演员 可 以 像 艾 克 曼 
那样 控制 脸 上 的 每 一 块 肌肉 。1999 年 ， 由 我 的 研究 生 玛丽 安 :斯 图 尔 特 - 


巴特 利 特 (Marian Stewart-Bartlett， 见 图 12-6) 利用 反 回 传播 训练 的 网 
络 ， 在 实验 室 识 别 面 部 表情 的 准确 率 达 到 了 96%， 前 提 是 要 具备 完美 的 
照明 ， 周 正 的 面部 角度 ， 以 及 对 视频 进行 手动 时 间 分 割 。 [19] 这 个 网 
络 的 识别 效果 很 不 错 ， 于 是 1999 年 4 月 5 日 ， 玛 丽 安 和 我 在 黛 安 : 索 耶 
(Diane Sawyer) 主持 的 《 早 安 美国 》 (Good Morning America) 市 目 
中 同 公众 展示 了 这 一 成 果 。 在 成 为 加 州 大 学 圣 授 戈 分 校 神经 计算 研究 
所 的 一 名 教师 后 ， 玛 丽 安 接着 又 开发 了 计算 机 表情 识别 工具 箱 
(Computer Expression Recognition Toolbox ， 以 下 简称 CERT) 。 [20] 
随 着 计算 机 的 速度 变 得 越 来 越 快 ，CERT 已 经 能 够 进行 实时 分 析 ， 可 以 
标记 视频 流 中 不 断 变 化 的 人 类 面部 表情 。 
2012 年 ， 王 丽 安 和 哈 维 尔 : 莫 维 兰 将 面部 表情 的 目 动 分 析 技 术 商 业 
化 ， 创 立 了 一 家 名 为 "Emotient” 的 公司 。 保 罗 . 艾 克 曼 和 我 为 这 家 公司 担 
任 科 学 顾问 。Emotient 开 发 的 深度 学 习 网 络 能 够 以 96% 的 准确 率 ， 在 各 
种 不 同 的 照明 条 件 下 ， 利 用 非 正 面 面 部 信息 实时 地 对 目 然 行为 做 出 判 
断 。 在 Emotient 的 一 个 演示 中 ， 其 网 络 在 几 分 钟 内 天 检测 到 唐纳德 . 特 
BAZ! (Donald Trump) 在 共和 党 的 首 场 初 选 辩论 中 ， 对 一 个 焦点 小 组 
[21] 的 情绪 影响 最 大 。 相 比 之 下 ， 民 意 调查 人 员 花 了 数 天 时 间 才 得 出 
了 同样 的 结论 ， 专 家 们 更 是 在 几 个 月 之 后 才 认 识 到 ， 人 情感 投入 是 争取 
到 选民 的 关键 。 焦 点 小 组 中 最 强烈 的 面部 表情 是 愉 个 ， 其 次 是 恐惧 。 
此 外 ，Emotient 的 深度 学 习 网 络 在 尼尔森 收视 率 (Nielsenratings) 调查 
结果 发 布 前 的 儿 个 月 ， 融 预测 到 了 哪些 电视 剧 将 大 热 。Emotient 于 2016 
年 1 月 被 苹果 公司 收购 ， 玛 丽 安 和 哈 维 尔 现 在 均 在 苹果 公司 任职 。 


图 12-6 正在 演示 面部 表情 分 析 技术 的 玛丽 安 . 斯 图 尔 特 -巴特 利 特 。 时 间 轴 上 显示 的 是 深度 学 习 
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玛丽 安 . 斯 图 尔 特 -巴特 利 特 ，Robert Wright/LDV Vision Summit 2015 ° 


在 不 久 的 将 来 ， 你 的 iPhone 可 能 不 仅 会 问 你 为 什么 不 高 兴 ， 还 可 能 
帮助 你 冷静 下 来 。 


13 年 前 ， 在 温哥华 举行 的 2005 年 NIPS 大 会 上 ， 我 和 加 州 大 学 圣 迭 
戈 分 校 计算 机 科学 与 工程 系 的 同事 加 里 . 科 特 雷 尔 (Gary Cottrell) 在 一 
起 吃 早餐 。 加 里 属于 20 世 纪 80 年 代 PDP 团 队 最 初 的 一 批 成 员 ， 也 是 PDP 
团队 仍 留 在 加 州 大 学 圣迭戈 分 校 为 数 不 多 的 几 人 之 一 。 他 是 20 世 纪 60 
年 代 最 后 儿 个 仍 在 坚持 神经 科学 研究 团体 中 的 一 员 ， 留 着 马尾 办 和 灰 
白 的 胡须 。 他 读 到 了 NSF 发 表 的 一 项 声明 ， 要 求 为 “学 习 科 学 中 


心 ” (Science of Learning Centers) 提供 提案 。 其 中 让 他 感 兴趣 的 内 容 ， 
是 连续 5 年 每 年 500 万 美元 的 预算 ， 而 且 还 可 以 再 延长 5 年 。 他 想 提 交 一 
份 项 目 申请 ， 并 询问 我 是 否 愿 意 帮 忙 。 他 当时 说 ， 如 果 成 功 了 ， 他 就 
不 用 再 写 别 的 基金 申请 了 。 我 告诉 他 说 ， 如 采 成 功 的 话 ， 这 项 经 费 能 
让 他 终 喘 从 事 这 一 事业 了 。 他 笑 了 起 来 ， 之 后 我 们 开始 了 合作 。 

最 终 我 们 的 申请 被 批准 了 ， 如 我 所 料 ， 尽 管 每 年 提供 300 页 的 年 度 
报告 很 让 人 衣 演 ， 但 取得 的 科学 成 果 非 常 惊人 。 我 们 的 时 间 动 态 学 习 
中 心 (Temporal Dynamics of Learning Center， 以 下 简称 TDLC) 共有 来 
目 全 球 18 个 机 构 的 100 多 名 俩 究 人 员 。 在 由 NSF 资 助 的 6 个 学 习 科学 中 心 
里 ， 我 们 这 个 是 最 以 神经 科学 和 工程 为 导 同 的 ， 我 们 将 机 器 学 习 的 最 
新 进展 纳入 了 这 些 项 目 中 ( 见 图 12-7) 。 [22] Rubi 和 CERT 是 由 TDLC 
资助 的 两 个 项 目 。 我 们 还 有 一 个 移动 脑 电 图 实验 室 ， 让 被 试 者 可 以 在 
虚拟 环境 中 自由 漫游 ， 同 时 记录 他 们 的 脑 电 波 。 在 大 多 数 脑 电 图 实验 
室 中 ， 被 试 者 必须 坐 着 不 动 ， 眼 睛 都 不 能 取 ， 以 避免 产生 假象 。 我 们 
使 用 了 ICA 来 抵消 运动 假象 ， 让 我 们 能 够 观察 被 试 者 主动 探索 环境 ， 与 
其 他 人 互动 时 的 大 脑 活 动 。 


图 12-7 新 的 学 习 科 学 包括 机 器 学 习 和 神经 科学 ， 以 及 来 自 心 理学 和 教育 的 见解 。 图 片 来 源 : 


Meltzoff , Kuhl,Movellan, and Sejnowski, *Foundations for a New Science of Learning," 图 1。 


以 下 是 TDLC 研 究 人 员 开 展 的 众多 项 目 中 的 一 部 分 。 


罗 格 斯 分 子 和 行为 神经 科学 中 心 (Center for Molecular and 
Behavioral Neuroscience at Rutgers) 的 艾 普 利 : 本 纳 斯 奇 (April 
Benasich) 开发 了 一 项 测试 ， 可 以 根据 宝宝 的 听觉 感知 时 间 来 预测 婴儿 
是 否 会 在 语言 习 得 和 学 习 能 力 上 存在 缺陷 ;， 她 指出 ， 这 些 缺 陶 可 以 通 
过 上 自 适 应 地 控制 声 首 出 现 的 时 间 和 奖励 反馈 来 纠正 ， 以 便 宝宝 能 够 发 
育 出 正常 的 听力 、 语 言 和 学 习 能 力 。[【23] 这 些 结果 所 针对 的 实验 对 象 
年 龄 跨度 从 3 个 月 到 5 安 。 即 使 正常 发 育 的 婴儿 也 会 从 互动 环境 中 受 
益 。 艾 普 利 于 2006 年 创立 了 AAB Research LLC， 让 快速 听觉 处 理 技 术 

(rapid auditory processing technology， 人 简称 RAPT) 进入 普通 家 庭 ， 以 
提高 婴儿 的 学 习 能 力 。 


玛丽 安 : 斯 图 尔 特 -巴特 利 特 和 哈 维尔 : 莫 维 兰 使 用 机 器 学 习 上 自动 登 
记 学 生 的 面部 表情 ， [24j 当 学 生 看 起 来 很 诅 形 ， 似 乎 不 太 理解 授课 内 
容 时 ， 教 师 可 以 收 到 提醒 并 采取 措施 。 利 用 深度 学 习 技术 ， 这 一 过 程 
如 今 可 以 自动 且 准 确 地 同时 记录 班级 中 每 个 孩子 的 表情 信息 。 在 市 场 
营销 、 精 神 病 学 和 法 医学 等 领域 ,还 有 很 多 的 面部 表情 分 析 应 用 有 待 
开发 

加 州 大 学 圣迭戈 分 校 的 哈 罗 德 :由 施 勒 (Harold Pashler) 和 科 有 罗拉 
多 大 学 博 尔 德 分 校 的 迈克 尔 : 莫 泽 尔 (Michael Mozer) 研究 了 12 年 级 的 
学 生 在 数 年 内 的 学 习 表 现 ， 以 扩充 先前 针对 大 学 生 为 期 数 月 的 研究 。 
研究 结 采 表明 ， 个 性 化 的 时 间 分 散 式 复习 比 短期 的 填 蝎 式 复习 更 能 改 
善 对 学 习 材料 的 长 期 记忆 。[2] 他 们 表示 ， 当 学 习 材料 需要 在 学 生 的 
记忆 中 停留 较 长 时 间 时 ， 学 习 的 最 佳 间隔 时 间 最 好 设 得 长 一 些 。 他 们 
在 语言 课程 中 为 学 生 们 制定 了 最 佳 复 习 时 间 表 ， 并 帮助 他 们 取得 了 优 
异 的 成 绩 。 

TDLC 的 博士 后 研究 员 贝 丝 . 罗 戈 夫 斯 基 (Beth Rogowsky) ` F% 
斯 大 学 的 保 拉 : 塔 拉 尔 (Paula Tallal) 和 范 德 堡 大 学 的 基色 拉 :卡尔 霍 恩 

(Barbara Calhoun) 表明 ， 在 使 用 口头 或 书面 材料 的 学 习 方 法 之 间 没 有 
统计 学 差异 ， 而 且 ， 无 论 是 即时 理解 还 是 延 述 理解 ， 偏 好 的 学 习 方 式 
和 教学 方法 之 间 都 不 存在 联系 。 [26] 学 生 使 用 自己 更 偏好 的 方式 学 习 
不 会 带 来 任何 积极 的 效果 ， 这 也 就 意味 着 大 型 企业 宣传 的 针对 个 人 学 
习 方 式 的 培训 和 测试 材料 ， 并 不 会 提升 课 稼 的 学 习 效 果 。 

保 拉 : 塔 拉 尔 在 2014 年 启动 的 1500 万 美元 的 “全 球 学 习 X 奖 ”(Global 
Learning X-Prize) 中 发 挥 了 重要 作用 。 该 奖项 鼓励 教育 创新 ， 其 目标 
是 开发 开源 代码 和 可 扩展 软件 ， 使 发 展 中 国家 的 儿童 能 够 在 18 个 月 内 
掌握 基本 的 阅读 、 写 作 和 算术 技能 。 为 “全 球 学 习 X 奖 ”所 做 研究 的 积极 
影响 ， 将 在 未 来 数 十 年 内 在 全 世界 引起 回 啊 。 

TDLC 的 科学 总 监 安 德 里 亚 . 千 叶 (Andrea Chiba) 在 2014 年 上 海 “ 学 
习 科学 国际 大 会 ?上 介绍 了 天 于 所 有 的 学 习 行 为 如 何 改变 大 脑 结构 的 人 研 


ar. [27] 这 令 许 多 代表 都 感到 惊讶 ， 他 们 一 直 相 信 儿 童 来 到 世界 上 时 
就 具备 了 一 定 的 潜力 ， 对 那些 能 力 不 足 或 者 年 龄 过 大 的 学 习 者 来 说 ， 
教育 只 是 一 种 浪费 。 世 界 各 地 仍然 存在 着 巨大 的 人 类 潜力 有 待 挖 气 。 


我 们 发 现 教 育 中 最 大 的 问题 不 是 科学 方面 的 ， 而 是 来 自 社 会 和 文 
化 。 美 国有 13500 个 学 区 ， 每 个 学 区 都 有 自己 的 学 校 董事 会 ， 负 责 决 定 
课程 、 教 师资 格 和 最 佳 实践 ， 需要 数 十 年 才能 实现 这 些 目标 ， 并 有 针 
对 性 地 处 理 这 些 问题 。 在 教师 实施 教学 之 前 ， 他 们 还 必须 管理 教室 秩 
序 ， 这 对 于 低 年 级 和 市 中 心 的 学 校 来 说 尤其 具有 挑战 性 。 提 出 要 求 的 
家 长 们 可 能 不 会 意识 到 教学 资源 的 匮乏 导致 了 教师 中 的 职业 倦 念 现象 
频 发 ， 而 教师 工会 的 影响 也 难 辞 其 符 ， 后 者 往往 阻碍 了 日 积 月 累 的 努 
力 o 

教学 从 根本 上 来 说 是 一 项 劳动 密集 型 活动 。 最 优质 和 最 有 效 的 教 
学 方式 是 让 经 验 丰富 的 成 人 教师 和 学 生 之 间 进 行 一 对 一 交流 。 [28] 我 
们 背负 着 一 个 专 为 大 众 教 育 而 设计 的 流水 线 系统 ， 对 学 生 按 年 龄 进行 
划分 ， 教 师 在 大 班 里 年 复 一 年 地 传授 相同 的 课程 。 这 可 能 是 一 种 生产 
汽车 的 好 方法 ， 在 劳动 力 只 接受 基本 教育 就 能 满足 社会 需求 的 年 代 ， 
这 样 的 方法 还 算 行 得 通 。 但 是 当 工 作 岗 位 需要 更 高 水 平 的 培训 和 终身 
学 习 来 更 新 工作 技能 时 ， 这 个 系统 就 落伍 了 。 诚 然 ， 作 为 成 年 人 ， 回 
到 学 校 可 能 是 痛苦 和 不 切实 际 的 。 我 们 正在 经 历 的 信息 革命 已 经 超越 
了 劳动 力 世 代 更 替 的 时 间 尺 度 。 季 运 的 是 ， 出 现在 互联 网 上 的 新 技术 
可 能 会 改变 我 们 的 学 习 方式 。 学 习 科 学 中 心 于 2006 年 创立 时 ， 我 们 并 
没有 预见 到 ， 互 联网 正在 重 构 我 们 的 学 习 版 图 。 


成 为 更 好 的 学 习 着 


摹 课 在 2011 年 突然 流行 起 来 ，《 纽 约 时 报 》 发 表 了 一 篇 热门 文 
章 ， 提 到 了 一 门 大 受 欢 迎 的 斯 坦 福 大 学 人 工 智 能 在 线 课 程 。 29] kE 
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界 引 起 了 广泛 的 关注 。 几 乎 在 一 夜 之 间 ， 很 多 新 公司 获得 了 融资 ， 这 
些 公司 专注 于 开发 以 及 免费 在 线 发 布 世 界 上 一 些 最 优秀 的 教育 者 的 讲 
座 。 只 要 能 连 上 网 ， 人 们 就 能 随时 随地 观看 这 些 讲座 。 除 了 讲座 之 
外 ， 课 程 内 容 还 包括 测验 、 考 试 、 供 学 习 者 交流 的 论坛 、 助 教 辅导 ， 
以 及 目 发 组 织 的 本 地 “见面 会 ”， 方 便 学 生 在 非 正式 的 环境 中 讨论 课程 内 
容 。 聚 课 的 受众 面 已 经 大 大 增加 了 一 一 2015 年 ,“ 茶 读 人 ”的 数量 翻 了 一 
番 ， 从 估算 的 1700 万 增加 到 了 3500 多 万 。 莫 课 绕 开 了 现 有 教育 体系 中 
的 所 有 限制 因素 。 


2013 年 1 月 ， 在 加 州 大 学 尔 湾 分 校 由 美国 国家 科学 院 主 办 的 一 次 会 
WE, 我 遇 到 了 芭 芭 拉 : 奥 克利 。 尺 管 她 读书 的 时 候 在 数学 和 科学 方面 
表现 灾 佳 ， 但 她 现在 是 位 于 密歇根 州 奥 本 山 和 罗切斯特 山 市 的 奥克兰 
大 学 的 一 名 电子 工程 学 教授 。 她 是 曾 主 修 人 文科 学 专业 的 美国 陆军 上 
尉 ， 回 到 学 校 之 前 ， 她 在 日 令 海 的 拖网 渔 朋 上 担任 俄语 翻译 。 后 来 她 
克服 了 自己 在 数学 方面 的 心理 障碍 ， 获 得 了 电子 工程 博士 学 位 。 在 会 
议 的 晚 实 上 ， 我 发 现 芭 芭 拉 和 我 在 学 习 方 面 有 着 相似 的 看 法 ， 她 当时 
正在 写 一 本 书 ， 书 名 是 《学 习 之 道 》 (A Mind for Numbers: How to 
Excel at Math and Science ) 。 于 是 我 洲 请 她 到 加 州 大 学 圣迭戈 分 校 为 
高 中 学 生 和 老师 们 举办 一 次 TDLC 讲 座 。 

多 色拉 受到 了 学 生 们 的 热烈 欢迎 ， 很 明显 她 是 一 位 磊 有 天 赋 的 老 
师 。 她 的 方法 和 实用 性 见解 源 于 我 们 对 大 脑 的 了 解 ， 所 以 我 们 联手 为 
Coursera 开 发 了 一 门诊 译 ， 名 为 “学 会 如 何 学 习 : 帮助 你 掌握 复杂 学 科 
的 强大 智力 工具 ”《〈 见 图 12-8; https://www.coursera.org/learn/learning- 
how-to-learn/) ， 于 2014 年 8 月 推出 。 它 目前 是 世界 上 最 受 欢 迎 的 慕 
课 ， 在 头 四 年 里 注册 的 学 习 者 超过 300 万 ， 并 且 每 天 还 会 吸引 1000 个 来 
目 200 多 个 国家 的 新 学 员 。“ 学 会 如 何 学 习 ” 根 据 我 们 对 大 脑 学 习 方 式 的 
了 解 ， 为 你 提供 了 成 为 更 好 学 习 者 所 需 的 工具 。 我 们 学 习 者 的 反馈 非 
常 积 极 ， 于 是 我 们 又 开发 了 第 二 个 名 为 “思维 转换 ”(Mindshift) MWA 
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料 都 可 以 在 网 络 上 免费 获取 。 
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图 12-8 EER REANA FARMA RAR ^ CARTA 55 0I TARE, ERA 
全 球 最 受 欢 迎 的 互联 网 课程 。 图 片 来 源 ， 芭 世 拉 : 奥 克 利 。 
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“学 会 如 何 学 习 ” 这 一 课程 ， 束 如 何 成 为 更 好 的 学 习 者 ， 如 何 处 理 测 
试 焦 虑 ， 如 何 避 人 免 拖延 ， 以 及 我 们 对 大 脑 怎样 学 习 的 认识 等 话题 提供 
了 实用 性 的 建议 。 这 是 一 门 为 期 一 个 月 的 免费 课程 ， 由 长 度 为 5~10 分 
钟 的 视频 剪辑 、 小 测验 和 综合 测试 组 成 ， 现 已 被 翻译 成 20 多 种 语言 。 
课程 的 基石 之 一 ， 就 是 当 你 正在 做 别 的 事情 时 ， 你 的 大 脑 可 以 在 潜 意 
识 中 帮 你 完成 一 些 工作 。 享 利 : 庞 加 莱 (Henri Poincaré) 是 19 世 纪 一 位 
杰出 的 数学 家 ， 他 曾经 揪 述 目 己 如 何 最 终 解 决 了 一 个 数学 难题 。 当 时 
他 已 经 紧张 地 工作 了 好 几 个 星期 但 仍然 一 无 所 获 。 于 是 他 度假 去 
了 。 当 他 在 法 国 南 部 踏 上 一 辆 公共 汽车 时 ， 问 题 的 解决 方案 突然 歼 出 
现在 了 他 的 脑海 中 ， 他 的 大 脑 中 有 一 部 分 区 域 在 他 享受 假期 的 时 候 仍 
然 在 处 理 这 个 问题 。 他 知道 自己 找到 了 证 明 问题 的 正确 方法 ， 并 在 返 
回 巴 黎 时 完成 了 它 。 他 之 前 对 这 个 问题 的 深入 研究 已 经 使 他 的 大 脑 做 


好 了 充分 的 准备 ， 这 样 他 的 潜意识 就 可 以 在 他 放松 的 时 候 继续 处 理 这 
个 问题 。 这 两 个 阶段 对 创造 力 而 言 同等 重要 。 

令 人 惊讶 的 是 ， 即 使 在 睡觉 的 时 候 ， 你 的 大 脑 也 会 在 你 毫 不 知情 
的 情况 下 解决 问题 。 但 是 ， 只 有 在 你 入 睡 之 前 仍 专注 于 解决 问题 的 前 
提 下 ， 大 脑 才 能 做 到 这 一 点 。 于 是 你 早上 醒 来 的 时 候 ， 一 种 新 的 见解 
就 会 从 脑海 中 跳出 来 ， 帮 助 你 解决 问题 (尽管 这 种 情况 不 会 经 常 发 
生 ) 。 在 休假 或 入 睡 前 的 高 强度 思考 ， 对 激活 你 的 大 脑 非 常 重要 ; m 
则 ， 它 就 有 可 能 去 处 理 其 他 问题 了 。 这 种 方式 并 不 限于 数学 或 科学 问 
题 ， 如 果 你 最 近 在 思考 一 个 社交 问题 ， 你 的 大 脑 就 会 像 解决 数学 和 科 
学 问题 一 样 努力 解决 它 。 

“学 会 如 何 学 习 ” 最 令 我 们 感到 欣慰 的 成 果 之 一 ， 就 是 收 到 了 来 自 快 
乐 学 习 者 的 信件 ， 感 谢 我 们 为 他 们 提供 了 最 好 的 课程 ， 或 者 这 门 课 如 
何 影 响 了 他 们 的 职业 选择 。 [30] 教师 也 写 信 给 我 们 ， 提 到 他 们 正在 
将 “学 会 如 何 学 习 ” 这 门 课 的 经 验 融 入 自己 的 课堂 中 。 

我 们 最 初 的 目标 是 教授 高 中 生 和 大 学 生 “ 学 会 如 何 学 习 ”， 但 后 来 发 
现 这 些 人 的 比例 不 到 学 习 这 门 课程 总 人 数 的 1%。 因 为 学 校 一 直 以 来 都 
被 要 求 以 “共同 核心 ” (Common Core) 测试 为 目标 进行 教学 ， 他 们 没 时 
间 教 学 生 如 何 学 习 ， 而 后 者 往往 对 学 生 们 的 学 业 更 有 帮助 。 要 求 各 个 
学 区 都 采用 “学 会 如 何 学 习 ” 的 教学 模式 将 是 一 个 艰难 的 任务 ， 毕 竟 学 校 
的 运营 预算 是 有 限 的 。 学 区 也 不 打算 修改 他 们 的 课程 ， 把 “学 会 如 何 学 
习 ” 纳 入 大 规模 的 教学 。 任 何 大 范围 的 尝试 都 涉及 课程 表 的 调整 、 教 师 
再 培训 和 新 教材 的 开发 ， 这 个 过 程 相当 的 费时 费力 。 但 不 论 如 何 ， 我 
们 都 需要 12 岁 的 孩子 在 进入 高 中 前 接触 到 这 项 课程 。 芭 芭 拉 和 我 针对 
这 群 读 者 写 了 一 本 书 ， 希 望 这 些 年 轻 的 学 生存 进入 会 频繁 遇 到 数学 难 
题 的 中 学 时 期 之 前 ， 就 能 接触 到 我 们 的 技巧 。[31] 

与 学 校 课程 “要 么 太 多 ， 要 么 没有 ”的 学 习 模式 不 同 ， 莫 课 更 像 是 你 
随时 可 以 挑选 和 阅读 的 书 ， 学 习 者 们 更 倾向 于 “放养 式 ” 的 学 习 方 法 ， 有 
针对 性 地 选择 符合 他 们 迫切 需求 的 课程 。 莫 课 原本 被 认为 是 传统 教室 
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学 场所 不 同 。 它 以 独特 的 方式 满足 了 学 习 者 的 需求 ， 而 传统 教育 方式 
往往 做 不 到 这 一 点 。 例 如 ， 莫 课 已 经 被 翻转 课堂 (flipped classes) 这 一 
教育 方式 所 采纳 ， 学 生 们 可 以 在 方便 的 课余 时 间 观 看 选 定 的 讲座 ， 老 
师 则 会 针对 谋 程 内 容 在 谍 特 上 引导 学 生 们 进行 讨论 。 我 们 的 教育 体系 
是 为 工业 时 代 设 计 的 ， 学 校 所 传授 的 知识 曾经 是 你 今后 维持 工作 ， 以 
及 作为 一 名 有 生产 力 的 公民 所 需 的 基础 知识 。 然 而 现在 ， 学 生 刚 一 毕 
业 ， 学 校 传授 的 那些 知识 就 已 经 过 时 了 。 莫 课 直 接 进 入 家 庭 ， 是 教育 
系统 的 最 后 一 环 。 对 Coursera 进 行 的 人 口 统计 表明 ， 大 多 数 在 线 学 习 者 
的 年 龄 都 在 25~35 罗 之 间 ， 他 们 当中 超过 一 半 的 人 接受 过 大 学 教育 。 这 
些 都 是 在 工作 中 需要 新 技能 ， 并 在 网 上 进行 自学 的 年 轻 人 。 我 们 的 教 
育 系统 需要 更 多 根本 性 的 改变 ， 让 我 们 的 大 脑 能 够 适应 在 经 济 信 息 领 
域 中 快速 扩张 的 岗位 技能 需求 。 例 如 ， 通 过 互联 网 收集 信息 需要 一 些 
判断 力 和 基本 技能 ， 即 能 够 制定 合适 的 搜索 条 件 ， 并 甄别 错误 的 搜索 
路 径 。 可 惜 的 是 ， 学 校 似 乎 没有 时 间 教 授 基 本 的 互联 网 操作 技能 ， 即 
使 学 生 们 能 够 从 学 习 如 何 积极 寻求 信息 ， 而 不 是 被 动 接受 课程 中 受 
25 


优 达 学 城 (Udacity) BAA EL 2/122 IA ie E KC EISE ELE 
安 : 特 隆 创 立 的 男 一 家 制作 莫 课 的 教育 机 构 。 除 了 提供 免费 课程 外 ， 优 
达 学 城 还 与 希望 提升 自 英 员工 技能 的 公司 开展 了 合作 。 优 达 学 城 打 造 
了 符合 公司 需求 的 慕 课 ， 员 工 们 也 有 动力 去 学 习 这 些 课程 。 对 于 雇 
主 、 员 工 和 优 达 学 城 来 说 ， 这 是 共 启 。 优 达 学 城 也 提供 了 一 系列 专项 
课程 ， 比 如 自动 要 驶 汽车 技术 (费用 为 800 美 元 ) ， 学 员 学 成 之 后 可 以 
获得 纳米 学 位 (nanodegree) ， 如 果 在 6 个 月 内 找 不 到 工作 还 能 收 到 全 
额 退 款 。 [92] [33] 传统 学 校 之 外 的 教育 机 构 发 展 迅 速 ， 莫 课 可 以 为 终 
号 学 习 提 供 各 种 解决 方案 。 


我 们 后 续 的 一 门 莫 课 “思维 转换 : 突破 学 习 障 碍 并 发 据 你 的 潜 
é” (MindShift: Break through Obstacles to Learning and Discover Your 
Hidden Potential, https://www.coursera.org/learn/ mindshift/) 已 经 于 2017 


年 4 月 推出 。 该 课程 是 与 芭 芭 拉 : 奥 克利 的 一 本 新 书 同步 推出 的 ， BA 
基于 他 人 的 亲身 经 历 ， 并 使 用 早期 的 案例 (包括 我 的 ) 来 阐明 ， 当 你 
想 以 某 种 方式 改变 你 的 生活 时 可 能 会 面 对 的 各 种 难题 。 就 我 而 言 ， 我 
是 从 物理 学 转 到 了 神经 生物 学 领域 ,但 在 另 一 个 案例 中 ， 一 位 成 功 的 
音乐 会 独奏 家 放弃 了 他 的 职业 生涯 ， 转 而 成 为 一 名 医生 。 转 行 这 一 现 
象 已 经 变 得 越 来 越 普遍 , “思维 转换 ”的 课程 设计 旨 在 降低 该 过 程 的 难 
度 。 该 门 课程 现在 在 世界 上 最 受 欢迎 的 莫 课 中 排名 第 三 。 

另 一 种 成 为 更 好 的 学 习 者 的 方式 ， 是 利用 交互 式 电脑 游戏 。 类 似 
Lumosity 这 样 的 公司 提供 了 在 线 游戏 ， 声 称 可 以 提高 玩家 的 记忆 力 和 注 
意 力 。 问 题 是 ， 支 持 这 种 说 法 的 研究 往往 凤毛麟角 ， 或 者 质量 不 高 ， 
特别 是 在 将 培训 转移 到 实际 任务 方面 。 但 是 ， 这 一 切 都 还 处 于 早期 阶 
段 ， 更 出 色 的 研究 正 开 始 帮助 我 们 辨别 有 效 和 无 效 的 方法 。 结 果 往 往 
令 人 大 开 有 眼界， 甚至 有 悖 直觉 。 


训练 你 的 大 脑 


在 广泛 改善 认 知 功能 方面 最 有 效 的 视频 游戏 是 那些 追逐 僵尸 ， 在 
战争 中 杀 死 坏人 ， 以 及 极速 赛车 之 类 的 游戏 。 日 内 瓦 大 学 的 达 关 妮 : 芭 
iEXjXL (Daphne Bavelier) #7, $t (WEE: HARA) (Medal 
of Honor: Allied Assault ) 等 第 一 人 称 视角 的 射击 游戏 改善 了 人 们 的 感 
知 、 注 意 力 和 认 知 能 力 ， 尤 其 是 视觉 、 多 任务 处 理 和 任务 转换 ， 并 且 
引导 他 们 更 快 地 制定 出 决策 。[33] 她 总 结 说 ， 玩 这 类 射击 游戏 可 能 会 
让 年 长 者 的 大 脑 反 应 与 年 轻 人 的 一 样 快 (对 于 任何 上 了 年 纪 的 人 来 说 
都 是 好 消息 ) 。 但 是 一 些 射 击 游戏 也 可 能 会 有 损 长 期 记忆 。[38] 每 款 
游戏 都 有 不 同 的 优点 和 缺点 ， 需 要 单独 进行 分 析 。 


JUN SE IB A LCA SARE EG (Adam Gazzaley) 定制 了 一 款 
叫 作 NeuroRacer 的 三 维 视频 游戏 ， 能 够 提高 你 的 多 任务 处 理 能 力 。 有 研 


究 表 明 ， 大 脑 中 神经 调 市 剂 的 活动 对 于 注意 力 、 学 习 和 记忆 有 着 重要 
的 作用 。 [27] ¢eNeuroRacer'#, EAI FMEA IE ERS IA, 
[E] ERES E ER BEDLI HH BP Ro I ER EAR Vad FH PA RK 
能 ， 例 如 注意 力 和 任务 切换 能 力 ， 进 行 多 任务 处 理 。 在 测试 NeuroRacer 
上 时， 亚当 和 同事 们 发 现 ， 在 经 过 训练 以 后 ， 被 斌 者 的 这 些 技 能 得 到 了 
显著 提高 ， 并 在 工作 记忆 和 持续 关注 方面 达到 了 较 高 的 水 平 ， 然 而 这 
些 并 不 属于 训练 的 一 部 分 。 此 外 ， 他 们 的 表现 还 优 于 未 经 训练 的 20 尹 
年 轻 人 ， 并 且 在 中 止 训练 的 6 个 月 后 ， 这 些 能 力 依然 没有 消退 。 [38] 
NeuroRacer 目 前 正在 被 用 于 临床 试验 ， 为 患 有 注意 力 忠 陷 和 记忆 障碍 的 
患者 提供 治疗 。 

1997 年 ， 尚 在 罗 格 斯 的 保 拉 : 塔 拉 尔 和 尚 在 加 州 大 学 旧金山 分 校 的 
这 克 尔 - 梅 泽 尼 奇 (Michael Merzenich) 联合 创建 了 一 家 名 为 “Scientic 
Learning” 的 公司 ,为患 有 语言 和 阅读 障碍 (如 失 读 症 ) 的 儿童 提供 帮 
助 。 语 音 理 解 取决 于 能 否 捕捉 到 快速 的 声学 转换 。 例 如 ， 听 
到 “ba”、`“ga” 或 “da" 之 间 的 差异 取决 于 音节 开头 的 毫秒 艺 围 内 的 时 间 差 
异 。 无 法 检测 到 这 些 时 间 差 异 的 孩子 在 学 习 中 会 处 于 劣势 ， 因 为 他 们 
无 法 分 辨 包含 这 些 声 音 的 词汇 。 要 学 习 了 阅读， 孩子 们 必须 能 够 识别 和 
区 分 单词 中 字母 代表 的 和 倘 短 声音 。 塔 拉 尔 和 梅 泽 尼 奇 开 发 了 被 称 
为 “Fast ForWord” 的 一 系列 计算 机 游戏 ， 它 惠 驳 通过 在 音 玉 、 单 词 和 人 句 
子 中 伟大 声学 时 差 来 提高 孩子 的 听觉 判断 、 语 言 和 阅读 理解 能 力 。 随 
着 孩子 们 在 各 种 语言 和 阅读 水 平 上 的 提高 ， 这 种 时 间 差 异 会 被 缩短 。 
[39] Fast ForWord 在 教育 游戏 的 同类 产品 中 得 到 了 很 高 的 评价 ， 有 6000 
所 学 校 和 超过 250 万 名 儿童 使 用 过 该 系列 。 它 们 也 在 超过 55 个 国家 被 用 
来 帮助 孩子 学 习 英 语 这 门 第 二 语言 。 梅 泽 尼 奇 后 来 又 开发 了 BrainHQ 

(https://www.brainhg.com) ， 这 是 一 款 基于 相似 科学 原理 的 游戏 ， 虽 

在 减缓 老年 人 的 认 知 衰退 。 

你 还 可 以 通过 锻炼 大 脑 来 提高 运动 技能 。 加 州 大 学 河 洲 分 校 的 亚 
伦 : 赛 次 (Aaron Seitz) 开发 了 一 个 能 够 改善 视觉 感知 和 反应 时 间 的 计 
算 机 程序 。 在 使 用 这 个 程序 后 ， 棱 球 队 队 员 普 裔 反映 视力 变 得 更 好 


了 ， 被 三 振 出 局 的 次 数 变 少 了 ， 还 创造 出 了 更 多 跑 垒 ， 并 在 赛季 的 54 
场 比赛 中 多 赢得 了 4~5 场 比赛 。 [40] 赛 茨 开发 了 一 款 名 
为 “UltimEyes” 的 廉价 应 用 程序 ， 将 他 的 研究 成 果 对 公众 开放 。 不 过 联 
邦 贸易 委员 会 已 经 停止 了 这 款 游戏 的 传播 ， 直 到 更 多 的 研究 能 进一步 
证 实 他 的 说 法 。 A] 


在 玩 考 验 反 应 时 间 的 游戏 时 ， 某 些 认 知 技能 上 的 提高 倾向 于 转移 
到 其 他 认 知 技能 上 。 但 在 玩 许多 其 他 特定 领域 游戏 ， 如 记忆 游戏 时 ， 
这 种 转移 并 不 存在 。 虽 然 我 们 设计 的 交互 式 视频 游戏 正在 变 得 越 来 越 
好 ， 能 够 改善 我 们 的 大 脑 功能 ， 增 加 游戏 的 趣味 性 ， 还 能 制 成 应 用 程 
序 ， 但 这 种 转移 发 生 的 条 件 仍然 有 待 研究。 全 球 范围 内 认 知 改善 的 洪 
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在 2015 年 NIPS 大 会 开幕 式 上 上， 我 穿着 全 美 运动 汽车 竞赛 协会 
(NASCAR) 风格 的 夹克 欢迎 与 会 者 ， 上 面 贴 着 我 们 所 有 42 个 赞助 商 
的 商标 ( 见 图 12-9) 。 在 巴塞 罗 那 举行 的 2016 年 NIPS 大 会 上 ， 和 赞助 商 
有 65 家 ， 一 件 夹克 上 已 经 放 不 下 了 。 而 到 了 2017 年 ， 多 达 93 家 赞助 商 
支持 了 在 长 滩 举 行 的 NIPS 大 会 。 这 种 爆炸 性 的 增长 迟早 会 结束 ， 但 它 
在 社会 上 的 回响 可 能 会 持续 数 十 年 。 这 些 赞 助 公司 派 遗 招聘 人 员 参 加 
NIPS 大 会 ， 渴 望 聘用 市 场 上 缺乏 的 优秀 研究 人 员 。 我 的 许多 同事 已 经 
加 入 了 谷歌 、 微 软 、 亚 马 还 、 苹 果 、Facebook、 百 度 和 其 他 许多 初创 公 
司 。 它 们 还 从 大 学 里 抢夺 人 才 。 据 塞 巴 斯 带 安 : 特 隆 估 计 ， 当 一 家 像 
Otto 或 Cruise 这 样 的 自动 驾驶 初创 公司 被 一 家 大 公司 收购 时 ， 相 当 于 在 
每 个 机 器 学 习 专家 身上 都 花费 了 1000 万 美元 。 [22] 


2013 年 ， 谷 歌 收购 了 态 弗 里 : 邓 顿 的 公司 DNNresearch， 当 时 这 家 公 
司 由 他 和 他 在 多 伦 多 大 学 的 两 名 人 研究 生 在 运营 着 。 杰 弗 里 : 辛 顿 于 是 成 
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算 能 力 ， 但 更 重要 的 是 谷歌 所 拥有 的 海量 数据 。 谷 歌 大 脑 (Google 
Brain) 是 杰 夫 : 迪 恩 (Jeff Dean) 领导 的 由 才华 横 淤 的 工程 师 和 科学 家 
组 成 的 杰出 人 才 团 队 。 人 巡 恩 设计 了 合 歌 所 有 的 服务 都 依赖 的 MapReduce 
文件 系统 。 当 你 让 合 歌 翻译 一 段 文 字 时 ， 它 现在 所 使 用 的 就 是 迪 恩 的 
谷歌 大 脑 团队 设计 的 深度 学 习 技术 。 当 你 搜索 一 个 关键 词 时 ， 深 度 学 
习 会 对 搜索 结果 进行 排名 。 当 你 与 谷歌 助手 (Google Assistant) 进行 交 
谈 时 ， 它 会 使 用 深度 学 习 来 识别 你 的 话 。 随 着 与 你 的 对 话 进行 得 更 加 
流畅 ， 它 将 使 用 深度 学 习 为 你 提供 更 好 的 服务 。 谷 歌 已 经 在 全 力 地 外 
研 深度 学 习 。 其 他 高 科技 行业 也 一 样 ， 但 这 只 是 一 个 开始 。 
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图 12-9 我 在 2015 年 蒙特 利 尔 NIPS 大 会 上 的 穿着 ， 一 件 “ 全 美 运动 汽车 竞赛 协会 ”风格 的 夹克 。 会 
议 的 赞助 商 五 花 八 门 ， 从 顶级 互联 网 公司 到 金融 和 媒体 公司 ， 它 们 都 在 深度 学 习 领 域 进行 了 投 
资 。 图 片 来 源 ，NIPS 基 人 金 会 。 


美国 在 人 工 智 能 方面 正在 失去 领先 地 位 ， 在 你 阅读 这 本 书 的 时 
候 ， 其 他 国家 可 能 已 经 超越 了 我 们 。 多 伦 多 矢量 研究 所 (The Vector 
Institute in Toronto) 于 2017 年 3 月 启动 ， 加 拿 大 政府 和 安大略 省 政府 ， 
多 伦 多 大 学 以 及 私营 企业 对 其 提供 了 1.75 亿 加 元 的 资金 支持 。[ 鱼 ] & 
量 研究 所 的 目标 是 成 为 世界 领先 的 人 工 智能 研究 中 心 ， 培 养 最 多 的 机 
器 学 习 领 域 的 博士 和 硕士 毕业 生 ， 并 成 为 推动 多 伦 多 市 ， 安 大 略 省 万 
至 整个 加 拿 大 经 济 发 展 的 Al 超级 集群 的 引擎 。 但 加 拿 大 将 面临 来 自 中 
国 的 激烈 竞争 ， 中 国正 在 培训 数 千 名 机 器 学 习 领 域 的 工程 师 ， 神 经 形 
态 计算 是 其 “大 脑 项 目的 两 辟 之 一 。 受 2017 年 AlphaGo 击 败 柯 洁 事 件 的 
影响 一 -类似 1957 年 苏联 制造 的 人 造 卫星 对 美国 的 影响 ， 中 国 已 经 启 
动 了 一 项 新 的 价值 数 十 亿美 元 的 人 工 智 能 计划 ， 包 括 雄 心 勃 勃 的 项 
目 、 初 创 企 业 和 学 术 研 究 ， 目 的 是 到 2030 年 在 世界 范围 内 占据 重要 地 
fre 44] 由 于 其 拥有 大 量 的 医疗 和 个 人 数据 ， 而 且 普通 民众 对 隐私 的 
关注 相 比 西方 民主 国家 要 少 得 多 ， 中 国 可 以 超越 其 他 那些 将 私人 数据 
保留 在 私有 孤岛 中 的 国家 。 中 国 还 将 农业 和 制造 业 作 为 数据 收集 的 对 
象 。 谁 拥有 最 多 的 数据 ， 谁 就 是 赢家 ， 中 国 在 数据 上 的 资本 实力 相当 
EE o 


中 国 也 希望 "将 人 工 智 能 集成 到 导弹 中 ， 甚 至 预测 犯罪 行为 ”"。 [45] 
而 与 此 同时 ， 美 国 的 政治 领导 人 正 计 划 削 减 科学 和 技术 资金 。 在 20 世 
纪 60 年 代 ， 美 国 在 太空 竞赛 中 投入 了 1000 亿 美元 (该 数字 针对 通货 膨 
胀 进行 了 调整 ) , [46] 创造 了 卫星 产业 ， 使 美国 在 微 电 子 和 材料 领域 
处 于 领先 地 位 ， 并 在 科学 和 技术 的 国家 实力 上 做 出 了 政治 宣言 。 当 时 
的 投资 至 今 仍 在 发 挥 功效 。 微 电子 和 先进 材料 是 美国 仍然 具有 竞争 力 
的 少数 几 个 行业 之 一 。 中 国 在 AI 竞争 方面 的 大 量 投资 ， 可 能 会 让 它 在 
21 世 纪 的 几 个 关键 行业 中 处 于 领先 地 位 。 这 一 形势 对 我 们 来 说 是 一 种 


人 工 智能 正在 加 速 “ 无 形 的 ”信息 经 济 。 经 济 产 出 的 衡量 标准 是 国内 
总 值 (GDP) ， 即 所 有 商品 和 服务 的 总 价值 。 这 项 指标 是 为 工业 


经 济 设计 的 ， 其 主要 产品 和 服务 是 有 形 的 ， 例 如 食品 、 汽 车 和 医疗 保 
健 。 但 是 ,信息 公司 中 越 来 越 多 的 价值 并 不 是 以 这 些 实体 产品 进行 衡 
量 的 。 例 如 ,微软 拥有 的 建筑 和 设备 价值 为 10 亿 美元 ， 仪 占 其 市 场 价 
值 的 1% © [47] 其 余 价 值 则 是 基于 软件 和 微软 程序 员 的 专业 知识 。 你 愿 
意 为 在 智能 手机 上 下 载 的 信息 出 个 什么 价钱 ? 我 们 需要 一 种 考虑 到 各 
种 形式 信息 价值 的 新 指标 ， 即 国内 无 形 资产 总 值 (Gross Domestic 
Intangibles， 简 称 GDI) ， 以 强化 GDP 来 衡量 生产 率 。[ 和 4] 


目前 人 工 智能 的 应 用 还 是 基于 30 年 前 完成 的 基础 研究 。30 年 后 的 
应 用 将 取决 于 当前 正在 进行 的 基础 研究 ， 但 最 优秀 和 最 聪明 的 研究 人 
员 正 在 为 工业 办 工作 ， 并 专注 于 近期 的 产品 和 服务 。 平 衡 这 一 人 才 流 
动 趋势 的 是 ， 最 聪明 最 优质 的 学 生 现 在 都 进入 了 机 器 学 习 领 域 。 而 在 
十 一 代 人 人 中 ;类似 的 人 才 会 进入 投资 银行 业 * 

在 思考 人 工 智 能 的 未 来 时 ， 我 们 需要 保持 目光 长 远 ， 因 为 我 们 远 
没有 具备 达到 人 类 智能 水 平 所 需 的 计算 能 力 。 现 在 ， 深 度 学 习 网 络 拥 
有 数 百 万 个 单元 和 数 十 亿 个 权重 。 这 比 人 类 大 脑 皮层 中 的 神经 元 和 突 
触 的 数量 还 要 少 1 万 倍 一 一 人 类 1 立方 襄 米 的 皮层 组 织 就 包含 了 10 亿 个 
突 触 。 如 果 世 界 上 的 所 有 传感器 都 连接 到 互联 网 ， 并 通过 深度 学 习 网 
络 相互 连 授 ， 那 么 有 一 天 ， 互 联网 可 能 会 醒 来 并 主动 说 出 : 


“Hello, world!” (你 好 ， 世 界 ! ) [491 
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亲爱 的 教授 们 ， 我 参加 了 期 末 考 试 ， 考 得 很 好 。 我 在 读 五 年 级 。 我 妈妈 正在 浏览 Coursera 
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如 此 机 智 ， 整 个 课程 都 很 有 趣 。 当 然 ， 我 必须 借助 词典 来 查询 课程 中 使 用 的 科学 术语 ， 但 这 是 
个 很 好 的 学 习 体验 。 通 过 使 用 呼吸 法 ， 我 学 会 了 克服 进入 考场 时 的 胃 部 不 适 。 真 的 很 管用 ! 
现在 我 已 经 学 会 了 将 考试 看 作 了 解 我 学 到 并 记 住 了 多 少 东西 的 工具 。 我 喜欢 番茄 工作 法 。 
我 的 妈妈 在 整个 过 程 中 都 在 扮演 反面 角色 。 她 的 大 脑 里 塞 满 了 视频 讲座 (她 只 顾 着 狂热 地 看 视 
mM) ， 没 有 进行 适度 的 休息 ， 甚 至 在 我 参加 期 末 考 试 的 前 一 天 晚上 都 没有 了 睡觉。 虽然 她 比 我 聪 
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明 ， 但 她 做 得 不 好 。 我 很 惊讶 ， 简 单 的 技巧 就 能 帮助 我 得 到 更 高 的 分 数 ， 而 且 没有 任何 考试 的 
压力 。 

非常 感谢 ， 教 授 们 “。 我 希望 你 们 能 推出 本 课程 的 第 二 部 分 。 
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算法 驱动 


2016 年 6 月 ， 在 新 加 坡 南洋 理工 大 学 举办 的 21 世 纪 科 学 挑战 大 会 
上 ， 我 参与 了 为 期 一 周 的 讨论 。 讨 论 的 话题 范围 很 广 ， 从 宇宙 论 、 进 
化 论 到 科学 政策 。 Hl w. AREZ (W. Brian Arthur). 是 一 个 对 技 
术 很 感 兴趣 的 经 济 学 家 ， 2 他 指出 ， 在 过 去 ， 技 术 是 由 物理 定律 驱 
动 的 : 20 世 纪 ， 我 们 试图 用 微分 方程 和 连续 变量 的 数学 原理 去 理解 物 
理 世 界 ， 这 些 变量 在 时 间 和 空间 上 平滑 地 变化 。 相 比 之 下 ， 今 天 的 技 
术 是 由 算法 驱动 的 :在 21 世 纪 ， 我 们 试图 通过 离散 数学 和 算法 来 理解 
计算 机 科学 和 生物 学 复杂 的 本 质 。 阿 瑟 是 新 墨西哥 州 圣 塔 菲 研 究 所 
(the Santa Fe Institute) 的 教员 ， 该 机 构 是 20 世 纪 涌 现 出 的 许多 研究 复 
杂 系 统 的 中 心 之 一 。[3] 


算法 无 处 不 在 。 我 们 每 次 使 用 谷歌 搜索 时 都 使 用 了 算法 。[ 重 
次 在 Facebook 上 阅读 的 新 闻 推 送 也 都 经 过 了 算法 的 目 动 筛选 ， 这 些 新 
的 推送 参考 了 我 们 的 阅读 历史 记录 ， 会 影响 我 们 情绪 的 反应 。[3] p 
着 经 过 深度 学 习 训 练 的 语 首 识别 和 上 自然 语言 能 力 被 租 入 我 们 的 手机 
中 ， 算 法 正在 以 越 来 越 快 的 速度 侵入 我 们 的 生活 。 

算法 是 在 执行 计算 或 解决 问题 时 ， 遵 循 一 组 包含 离散 步骤 或 规则 
的 过 程 。“ 算 法 ”(algorithm) 这 个 词 来 源 于 拉丁 文 “algorismus”， 以 9 世 
纪 的 波斯 数学 家 al-Khwarizmi 的 名 字 命 名 ， 在 17 世 纪 受 到 和 希腊 语 
中 “arithmos”( 意 为 “数字 ”) 这 个 词 的 影响 ， 最 终 由 “algorism” 转 变 
为 “algorithm”。 算 法 虽然 有 着 古老 的 起 源 ， 但 其 地 位 直到 最 近 才 通过 
数字 计算 机 提升 到 了 科学 和 工程 领域 的 前 沿 。 


用 算法 把 复杂 问题 商 音 化 


20 世 纪 80 年 代 ， 解 决 复杂 度 问 题 的 新 方法 开始 萌芽 ， 其 目标 是 寻 
找 新 的 途径 来 理解 在 生物 体 中 发 现 的 系统 ， 这 些 系统 比 物理 和 化 学 系 
DU EE TR o 5308 Lp vu T BUS oe PERS ACRES DTI E EAST], 
并 没有 一 种 简易 的 方式 来 描述 树木 如 何 生 长 。 于 是 ， 计 算 机 算法 被 一 
大 群 传奇 的 先驱 用 来 探索 这 些 古 老 的 生命 体 问 题 。 

WA RPE SRE (Stuart Kauffman) 是 一 名 医生 ， 对 基因 网 络 很 
感 兴趣 。 基 因 网 络 中 被 称 为 “转录 因子 ”的 蛋 日 质 能 定位 基因 ， 并 影响 
它们 是 否 被 激活 。 [S] 他 的 模型 是 自 组 织 的 ， 基 于 二 元 单元 网 络 ， 这 
个 网 络 和 神经 网 络 在 某 些 方面 很 相似 ， 但 速度 要 慢 得 多 。 克 里 斯 托 弗 . 
兰 顿 (Christopher Langton) 在 20 世 纪 80 年 代 后 期 创造 了 “人 造 生命 ”这 
个 术语 ， [由 此 引发 了 一 系列 的 尝试 ， 旨 在 理解 活 细胞 的 复杂 性 和 
复杂 行为 形成 发 展 的 原理 。 尽 管 我 们 在 细胞 生物 学 和 分 子 遗 传 学 方面 
所 取得 的 进展 ， 已 经 能 够 揭示 细胞 内 分 子 机 制 高 度 演化 的 复杂 性 ， 但 
生命 的 奥秘 对 我 们 来 说 仍然 是 个 不 解 之 谜 。 

算法 为 创造 出 比 现 有 世界 更 为 复杂 的 世界 提供 了 新 的 机 会 。 事 实 
上 ，20 世 纪 发 现 的 算法 确实 让 我 们 重新 思考 了 复杂 性 的 本 质 。20 世 纪 
80 年 代 的 神经 网 络 草 命 ， 就 是 由 类 似 的 理解 大 脑 复 洒 性 的 竹 试 所 驱动 
的 。 虽 然 我 们 的 神经 网 络 模型 比 大 脑 的 神经 回路 简单 得 多 ， 但 我 们 开 
发 的 学 习 算 法 使 得 探索 一 般 原 理 成 为 可 能 ， 例 如 信息 在 大 量 神经 元 中 
的 分 布 原 理 。 不 过 ， 网 络 功能 的 复杂 性 是 如 何 由 相对 简单 的 学 习 规 则 
产生 的 呢 ? 是 否 存 在 一 种 更 简单 的 系统 ， 既 体现 了 复杂 性 ， 又 更 易于 
分 析 呢 ? 


理解 、 分 析 复 杂 系 统 


另 一 个 以 科学 的 严肃 态度 对 待 复杂 性 的 传奇 人 物 是 斯 蒂 芬 沃 尔 夫 
勒 姆 〈 见 图 13-1) 。 他 年 轻 时 是 个 神 董 ，20 岁 就 从 加 州 理工 学 院 获得 
了 物理 学 博士 学 位 ， 创 造 了 该 学 位 最 年 轻 毕 业 生 的 纪录 ， 并 于 1986 年 
在 伊利 诺 伊 大 学 成 立 了 复杂 系统 研究 中 心 。 沃 尔 夫 勒 姆 认为 神经 网 络 
过 于 复 洒 ， 于 是 决定 转变 研究 方 同 ， 开 始 探 索 细 胞 目 动 机 。 


细胞 自动 机 通常 只 有 少数 几 个 随时 间 变 化 的 离散 值 ， 这 取决 于 其 
他 细胞 的 状态 。 最 简单 的 一 种 细胞 自动 机 ， 是 一 组 一 维 的 细胞 阵列 ， 
每 个 细胞 的 值 为 0 或 1 (见方 框 13.1) 。“ 生 命 的 游戏 ” (Game of Life) 
也 许 是 最 著名 的 细胞 自动 机 了 ， 它 是 由 普林斯顿 大 学 的 数学 教授 约翰 : 
康 威 (John Conway) 在 1968 年 发 明 的 ， 并 由 马丁 :加 德 纳 (Martin 
Gardner) 通过 他 在 杂志 《科学 美国 人 》 (Scientific American) 的 “ 数 
学 游戏 "专栏 中 推广 开 来 〈 见 图 13-2) 。 整 个 空间 是 一 个 二 维 的 细胞 阵 
列 ， 细 胞 只 有 “ 开 ? 或 “ 关 ” 的 状态 ， 对 规则 的 更 新 仅 取决 于 4 个 最 近 的 相 
邻 细胞 。 在 每 个 时 间 步 又 中 ， 所 有 细胞 的 状态 都 会 更 新 。 阵 列 中 会 生 
成 复杂 的 模式 ， 其 中 一 些 模式 还 有 自己 的 名 字 ， 例 如 “滑翔 机 >， 它 会 
横 跨 阵列 并 与 其 他 模式 发 生 碰 撞 。 初 始 条 件 对 于 找到 显示 复杂 模式 的 
配置 至 关 重 要 。 


图 13-1 斯 带 分 er i 站 在 由 算法 生成 的 地 板 上 。 沃 
尔 夫 勒 姆 是 复杂 性 理论 的 先驱 ， 他 曾经 提出 ， 即 使 是 简单 的 程序 也 会 生成 现实 级 别 的 复杂 
性 。 图 片 来 源 ， 斯 带 苍 - 沃 尔 夫 勒 姆 。 


生成 复杂 系统 的 规则 有 多 普遍 呢 ? 沃 尔 夫 勒 姆 想 要 了 解 可 能 导致 

复杂 行为 的 最 简单 的 细胞 自动 机 规则 ， 于 是 他 开始 从 所 有 规则 中 寻 
找 。 规 则 0~29 产 生 的 模式 总 是 会 回归 枯燥 的 行为 ， 所 有 的 细胞 都 会 以 
重复 模式 或 藤 套 分 形 模式 结束 。 但 是 ， 规 则 30 产 生 了 展开 模式 ， 规 则 
110 不 断 变化 并 演变 出 了 复杂 模式 (见方 杠 13.1) 。 [8] 最 终 证 明 ， 规 
则 110 能 够 实现 通用 计算 ， 也 就 是 说 ， 所 有 可 能 的 细胞 自动 机 中 ， 最 简 
单 的 一 些 已 经 具备 了 可 以 计算 任何 可 计算 画 数 的 图 灵机 的 能 力 ， 所 以 
它 在 原则 上 与 任何 计算 机 一 样 强大 。 
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(图 片 顶 部 ) 的 快照 ， 它 发 出 一 系列 按 对 角 线 飞行 
的 滑翔 机 图 标 ， 从 “ 母 船 ” (顶部 ) 飞 往 右 下 角 。 图 片 来 自 维基 百科 : Gun (cellular 
automaton) ， 有 一 个 滑翔 机 枪 运动 的 GIF 动 画 。 


图 13-2 生命 的 游戏 。 一 个 Gosper 滑 翔 机 枪 
L1 


该 发 现 的 一 个 意义 在 于 ， 我 们 在 生命 体 中 发 现 的 显著 复杂 性 ， 可 
以 通过 对 分 子 间 化 学 相互 作用 的 最 简 空间 进行 采样 ， 从 而 实现 演化 。 
而 演化 过 程 中 出 现 的 复杂 的 分 子 组 合 ， 应 该 是 能 够 预料 到 的 ， 不 应 该 
被 当 作 是 什么 奇迹 。 但 细胞 目 动机 可 能 不 是 早期 生命 的 优秀 模型 ， 冤 
竞 哪 些 简 单 的 化 学 系统 能 够 产生 复杂 的 分 子 结构 ， 仍 然 是 一 个 翡 而 未 
决 的 问题 。 [9] 也 许 只 有 特殊 的 生物 化 学 系统 才 有 这 种 特性 ， 这 有 助 
于 减少 可 能 产生 生命 的 光 在 相互 作用 种 类 的 数量 。 

生命 的 一 个 重要 特性 ， 是 细胞 的 目 我 复制 能 力 。 匈 下 利 裔 美国 数 
学 家 约翰 : 冯 : 诸 依 曼 ， 曾 经 于 20 世 纪 40 年 代 在 普林斯顿 高 级 研究 所 使 用 
细胞 自动 机 探索 过 这 种 能 力 。 冯 : 诸 依 曼 的 工作 对 数学 的 许多 领域 都 产 
生 了 重大 影响 ， 特 别 是 他 关于 博 奔 论 的 开创 性 工作 (在 第 1 章 中 提 到 
过 ) 。 在 寻找 可 以 完全 自我 复制 的 最 简单 的 细胞 自动 机 过 程 中 ， 冯 : 诸 
依 受 发 现 了 一 个 复杂 的 细胞 目 动机 ， 具 有 29 个 内 部 状态 和 一 个 大 型 的 
记忆 体 ， 可 以 实现 自我 复制 。 MO 该 发 现 具有 重大 的 生物 学 意义 ， 
为 能 够 目 我 复制 的 细胞 中 ， 也 有 许多 内 部 状态 和 记忆 以 DNA 的 形式 存 
在 。 从 那 以 后 ， 更 简单 的 、 能 够 目 我 复制 的 细胞 目 动机 陆续 被 发 现 。 


大 脑 的 逻辑 深度 


1943 年 ， 沃 伦 : 麦 卡 洛克 (Warren McCulloch) PIR ^R A Rt YX 
(Walter Pitts) 证 明了 ， 用 类 似 感知 器 的 简单 二 进 制 冰 值 单元 构建 一 
台数 字 计 算 机 是 可 行 的 ， 只 要 将 感知 器 按照 计算 机 的 基本 逻辑 门 那样 
连接 起 来 就 可 以 了 。 H 我 们 现在 知道 ， 大 脑 有 模拟 和 数字 的 混合 特 
性 ， 它 们 的 神经 回路 通常 不 计算 逻辑 画 数 。 但 是 麦 卡 洛克 和 皮 茨 于 
1943 年 发 表 的 论文 在 当时 受到 了 很 多 关注 ， 特 别 是 启发 了 汉 :. 诺 依 曼 对 
计算 机 的 思考 。 他 创建 了 第 一 批 有 存储 程序 的 数字 计算 机 ， 这 对 于 当 
时 的 数学 家 来 说 是 一 个 很 不 寻常 的 项 目 ， 尽 管 当 汉 : 诺 依 曼 于 1957 年 去 
世 时 ， 高 级 研究 所 并 没有 继续 他 的 研究 ， 还 销毁 了 他 的 计算 机 。 [12] 

冯 . 诺 依 曼 对 大 脑 也 非常 感 兴趣 。1956 年 ， 作 为 耶鲁 大 学 举办 的 西 
利 曼 (Silliman) 讲座 嘉宾 ， [12] 他 在 讲座 中 思考 了 大 脑 如 何 用 这 种 
不 可 靠 的 组 件 进 行 可 靠 操作 的 问题 。 当 数字 计算 机 中 的 晶体 管 出 现 错 
误 时 ， 整 个 计算 机 可 能 就 会 衣 浇 ， 但 是 当 大 脑 中 的 某 个 神经 元 失灵 
时 ， 大 脑 的 其 他 部 分 却 会 适应 这 种 失灵 ， 并 照常 工作 。 汉 : 诺 依 曼 认 
为 ， 宛 余 (redundancy) 可 能 是 大 脑 能 够 稳定 运转 的 原因 ， 因 为 每 一 
个 操作 都 有 许多 神经 元 参与 。 宛 余 在 传统 上 是 基于 备份 的 ， 以 防 主 系 
统 出 现 故 障 。 但 我 们 现在 知道 ， 大 脑 的 宛 余 是 基于 多 样 性 ， 而 不 是 重 
复 。 汉 : 诺 依 曼 对 逻辑 深度 也 表示 了 担忧 : 在 累计 误差 破坏 结果 之 前 ， 
大 脑 可 以 完成 多 少 逻 辑 步骤 ? 与 可 以 完美 地 执行 每 个 逻辑 步骤 的 计算 
机 不 同 ， 大 脑 具 有 许多 噪声 源 。 一 个 大 脑 可 能 达 不 到 完美 的 程度 ， 但 
是 因为 它 有 许多 神经 元 并 行 工作 ， 所 以 每 一 步 能 够 完成 的 计算 都 比 一 
台 计 算 机 进行 一 次 计算 所 能 完成 的 要 多 得 多 ， 因 而 逻辑 深度 也 要 浅 一 
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想象 一 下 充满 了 所 有 可 能 算法 的 空间 。 这 个 空间 中 的 每 一 点 都 是 
一 个 算法 ， 可 以 做 某 件 事 ， 而 且 其 中 一 些 算法 是 非常 有 用 且 高 效 的 。 
过 去 ， 这 些 算法 是 由 数学 家 和 计算 机 科学 家 们 手工 创造 的 ， 就 像 行 会 
里 的 工匠 那样 。 斯 带 芬 沃 尔 夫 勒 姆 通过 穷 举 搜索 (exhaustive search) 
对 搜寻 细胞 自动 机 算法 的 过 程 进行 了 自动 化 ， 从 最 简单 的 自动 机 开 
始 ， 其 中 一 些 产 生 了 高 度 复 杂 的 模式 。 沃 尔 夫 勒 姆 定律 

(Wolfram'slaw) 是 对 这 种 见解 的 一 个 总 结 。 该 定律 指出 ， 你 不 必 在 
算法 空间 中 搜索 很 长 一 段 路 人 径 ， 就 可 以 找到 一 种 能 解决 一 类 有 趣 问题 
的 算法 。 这 就 像 使 用 机 器 人 程序 在 互联 网 上 玩 类 似 《 星 际 争霸 》 的 游 
戏 一 样 ， 尝 试 所 有 可 能 的 策略 。 根 据 沃 尔 夫 勒 姆 定律 ， 算 法 空间 中 应 
该 有 大 量 算法 可 以 局 得 游戏 。 

沃 尔 夫 勒 姆 专注 于 细胞 自动 机 的 空间 ， 这 是 所 有 可 能 算法 空间 中 
一 个 小 的 子 空间 。 但 是 ， 如 有 果 细 胞 自动 机 是 非典 型 算法 ， 比 其 他 类 算 
法 更 具有 普遍 性 呢 ? 我们 现在 已 经 在 神经 网 络 空间 中 确认 了 沃 尔 夫 勒 
姆 定律 。 每 个 深度 学 习 网 络 都 是 通过 学 习 算法 找到 的 ， 该 算法 是 一 种 
发 现 狐 算法 的 元 算法 。 对 于 大 型 网 络 和 大 量 数据 ， 从 不 同 的 起 始 状 态 
学 习 可 以 产生 如 星系 般 庞 大 的 网 络 数量 ， 它 们 在 解决 问题 上 都 能 达到 
相同 效果 。 这 就 产生 了 一 个 问题 ， 即 是 否 存 在 一 种 比 梯度 下 降 更 快 的 
方法 能 够 找到 算法 空间 的 区 域 。 梯 度 下 降 这 种 方法 速度 慢 ， 还 需要 使 
用 大 量 的 数据 。 有 一 个 暗示 揭示 了 这 种 可 能 性 ， 即 每 个 生物 种 类 ， 都 
是 由 生命 算法 空间 中 的 一 个 点 附近 的 变 体 DNA 序 列 创建 的 个 体 云 。 目 
然 界 通过 目 然 选择 设法 从 一 个 “个 体 云 ?跳跃 到 另 一 个 云 ， 这 种 跳跃 式 
过 程 被 称 为 “间断 性 平衡 ”(punctuated equilibria) 14! ， 同 时 每 个 物 
种 也 经 历 着 随机 突变 的 局 部 搜索 。 遗 传 算法 被 设计 用 来 进行 这 样 的 路 
跃 ， 大 致 是 基于 自然 界 如 何 演化 出 新 的 有 机 体 H5] 。 我 们 需要 用 数学 
来 描述 这 些 算法 云 。 可 谁 知道 算法 的 空间 是 什么 样子 呢 ? 还 有 很 多 我 
们 尚未 发 现 的 算法 “星系 ”， 但 我 们 可 以 通过 上 自动 探索 的 方式 来 找到 这 
些 星系 一 一 终极 边境 。 


我 实验 室 的 博士 后 研究 员 克 劳 斯 - 施 带 费 尔 (Klaus Stiefel) 跟 进 了 
这 一 过 程 中 的 一 个 简单 例子 。 他 在 2007 年 使 用 了 一 种 算法 ， 在 计算 机 
中 生成 了 具有 复杂 的 树 突 树 (dendritic trees) 的 模型 神经 元 。 [LE] py 
突 束 像 天 线 一 样 从 其 他 神经 元 收集 输入 。 可 能 的 树 突 树 的 空间 是 巨大 
的 ， 而 施 带 费 尔 的 目标 是 指定 所 需 的 功能 ， 并 在 树 突 树 的 空间 中 搜索 
能 够 计算 出 该 功能 的 模型 神经 元 。 一 个 有 效 的 功能 是 决定 输入 放电 人 尖 
IEA BISA IIR: 当 一 个 特定 的 输入 在 另 一 个 输入 之 前 到 达 时 ， 神 经 元 
应 该 输出 一 个 放电 尖峰 ， 但 是 如 果 该 输入 随后 到 达 ， 神 经 元 应 该 保持 
沉默 。 这 种 模型 神经 元 是 通过 使 用 遗传 算法 搜索 所 有 可 能 的 树 突 树 发 
现 的 ， 且 该 解决 方案 看 起 来 就 像 皮 层 锥 体 神 经 元 ， 一 个 突 触 位 于 底部 
的 注 树 突 (基底 树 突 ) ， 另 一 个 突 触 位 于 神经 元 顶部 的 厚 树 突 ( 顶 树 
突 ; 见 图 14-6) 。 这 也 许 解释 了 为 什么 锥 体 细胞 有 顶端 和 基底 的 树 
突 。 如 果 没 有 对 所 有 可 能 突 触 的 空间 进行 深入 搜索 ， 我 们 可 能 就 无 法 
将 这 种 结构 和 上 壕 功 能 联系 起 来 。 通 过 从 其 他 功能 开始 重复 此 搜索 ， 
可 以 目 动 编译 以 树 突 形 状 列 出 相应 功能 的 目录 ， 并 且 当 发 现 新 的 神经 
元 时 ， 可 以 在 目录 中 通过 其 树 突 形状 查找 其 潜在 的 功能 。 

斯 带 分 : 沃 尔 夫 勒 姆 离开 学 术 界 后 创立 了 沃 尔 夫 勒 姆 研究 所 ， 后 者 
开发 了 Mathematica 程 序 ， 该 程序 支持 大 量 的 数学 结构 ， 并 被 广 沁 应 用 
于 实际 。Mathematica 是 用 沃 尔 夫 勒 姆 语言 编写 的 ， 这 是 一 种 通用 的 融 
合 多 种 范式 的 编程 语言 。 该 语言 也 为 沃 尔 夫 勒 姆 阿尔 法 (Wolfram 
Alpha) 提供 支持 ， 它 是 第 一 个 实用 的 、 基 于 符号 方法 的 关于 大 千 世 界 
的 问答 系统 。 (LZ) 学 术 领 域 的 货币 ， 是 发 表 的 文章 。 如 果 你 是 一 个 自 
立 的 绅士 派 科 学 家 ,你 就 有 能 力 绕 过 简短 的 文章 ， 出 版 有 足够 空间 来 
彻 展 探索 狐 领 域 的 书籍 。 这 是 多 个 世纪 以 来 的 常态 ， 只 有 富 人 或 诗人 
赞助 的 学 者 ， 才 有 条 件 成 为 科学 家 。 

沃 尔 夫 勒 姆 在 2002 年 写 了 《一 种 新 的 科学 》 (A New Kind of 
Science) —# ° [18] 该 书 重 5.6 磅 ， 长 达 1280 页 ， 其 中 有 348 页 记录 了 
相当 于 100 份 新 科学 论文 的 附 永 。 这 本 书 被 媒体 大 肆 宣 传 ， 但 引发 了 复 
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们 的 工作 。 这 种 反对 意见 并 没有 抓 住 此 书 的 要 点 ， 即 把 以 前 的 工作 置 
于 新 的 语 境 下 。 卡 尔 - 林 奈 (Carolus Linnaeus) 开发 了 一 种 现代 化 的 植 
物 和 动物 分 类 法 ， 即 “二 名 法 ”(Binomial Nomenclature) ， 如 大 肠 杆 菌 

(Escherichia coli) 。 该 命名 法 是 达尔 文 进化 论 的 重要 先导 ， 为 早期 的 
分 类 学 做 了 铺垫。 沃 尔 夫 勒 姆 开辟 的 这 一 人 研究 方 同 在 新 一 代 研 究 人 员 
中 已 经 有 了 一 批 追 随 者 。 

在 20 世 纪 80 年 代 ， 沃 尔 夫 勒 姆 对 神经 网 络 可 能 对 现实 世界 产生 的 
影响 表示 怀疑 ， 而 且 事实 上 ， 这 些 神经 网 络 在 之 后 30 年 的 确 没 有 产生 
太 大 的 影响 。 然 而 ， 过 去 5 年 的 进步 已 经 改变 了 这 一 点 : 沃 尔 夫 勒 姆 和 
其 他 许多 研究 人 员 承 认 他 们 低估 了 网 络 的 成 就 。 H 但 是 谁 能 预测 神 
经 网 络 的 性 能 会 扩展 到 什么 程度 呢 ? 文 持 Mathematica 的 沃 尔 夫 勒 姆 语 
言 现 在 也 文 持 深 度 学 习 应 用 ， 其 中 一 个 应 用 ， 是 最 早 对 图 像 中 的 对 象 
提供 在 线 识别 技术 的 应 用 程序 。 [20] 


是 斯 蒂 分 把 我 介绍 给 了 比 阿 特 丽 斯 .哥伦布 。1987 年 我 去 圣迭戈 
时 ， 比 阿 特 丽 斯 正在 加 州 大 学 圣迭戈 分 校 攻读 博士 学 位 。 他 打 电 话 
说 ， 他 的 朋友 比 阿 特 丽 斯 会 参加 我 的 PDP 讲 座 (之 后 又 分 别 给 我 们 打 
电话 询问 事情 的 进展 ) 。 几 年 后 ， 我 搬 到 圣迭戈 ， 后 来 义 和 比 阿 特 丽 
斯 订 了 婚 。1990 年 我 们 在 加 州 理 工学 院 举行 完婚 礼 后 ， 去 了 贝克 受 礼 
秆 参加 了 一 个 婚礼 研讨 会 ， 比 阿 特 丽 斯 吴 着 婚纱 ， 发 表 了 一 个 演讲 
一 一 《婚姻 : 理论 与 实践 》 (Marriage: Theory and Practice) ° Hara} 
自信 满 满 ， 不 无 骄傲 地 介绍 了 他 当时 是 如 何 介 绍 我 们 认识 的 。 不 过 比 
阿 等 丽 斯 提出 ， 如 果 他 想 邀 功 ， 也 必须 承担 相应 的 责任 ， 对 此 ， 他 订 
慎 地 表示 了 反对 。 
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心 片 崛 起 


我 们 正在 目 腾 电脑 心 片 行业 一 个 新 格 局 的 诞生 。 该 领域 的 竞争 主要 
在 于 如 何 设计 和 制造 独 一 代 的 芯片 ， 能 够 运行 学 习 算 法 一 一 不 管 是 深度 
学 习 、 强 化 学 习 还 是 其 他 的 学 习 算 法 一 一 比 在 通用 计算 机 上 的 模拟 学 习 
算法 快 上 几 千 倍 ， 能 耗 也 更 低 。 新 的 超大 规模 集成 电路 心 片 采取 并 行 处 
理 结构 ， 带 有 内 存 ， 能 够 缓解 在 过 去 50 年 里 主导 计算 的 顺序 汉 : 诺 依 曼 构 
架 中 内 存 和 中 央 处 理 器 之 间 的 瓶 有 席 。 在 硬件 层面 ， 我 们 还 在 探索 阶段 。 
每 种 具有 特殊 用 途 的 超大 规模 集成 电路 心 片 都 有 不 同 的 优点 和 局 限 性 。 
运行 人 工 智能 应 用 的 大 型 网 络 需要 巨大 的 运算 能 力 ， 因 此 ， 构 建 高 效 的 
硬件 有 着 巨大 的 蜂 利 空间 。 


主要 的 电脑 世族 公司 和 初创 公司 都 在 开发 深度 学 习 必 上 请 上 投入 了 大 
量 资金 。 比 如 ，2016 年 ， 瑞 特 尔 用 4 亿美 元 并 购 了 Nervana， 这 是 一 家 来 
目 圣 迭 戈 的 初创 公司 ， 主 营 设 计 深 度 学 习 的 专用 超大 规模 集成 电路 心 
片 。Nervana 前 CEO 纳 维 恩 : 饶 (Naveen Rao) 现在 负责 领导 英特尔 新 设立 
的 AI 产 品 部 ， 直 接 报告 给 英特尔 的 CEO。2017 年 ， 英 特 尔 用 153 亿 美元 并 
购 了 Mobileye， 该 公司 专注 于 生产 上 自动 要 驶 汽车 的 传感器 以 及 计算 机 视 
觉 系统 。 英 伟 达 (Nvidia) 开发 了 能 够 优化 图 形 应 用 程序 和 游戏 的 专用 
数字 芯片 ， 称 为 图 形 处 理 器 (graphics processingunits, GPUs) ， 目 前 正 
在 销售 更 多 为 深度 学 习 和 计算 设计 的 专用 心 片 。 而 谷歌 则 设计 生产 了 一 
种 更 为 高 效 的 专用 尽 片 一 一 张 量 处 理 单元 (tensor processing unit , 
TPU) ， 以 助力 为 其 互联 网 服务 的 深度 学 习 。 

不 过 人 研发 专用 软件 和 发 展 深 大 学 习 应 用 同样 重要 。 合 歌 开 源 了 它 的 
深度 学 习 项 目 TensorFlow， 尽 管 该 做 法 并 没有 看 起 来 那么 无 私 。 比 如 让 
安里 系统 免费 开源 ， 丈 给 了 谷歌 对 全 世界 绝 大 多 数 智能 手机 操作 系统 的 
控制 权 。 现 在 除了 TensorFlow， 还 有 其 他 一 些 开 源 选 择 ， 比 如 微软 的 


CNTK， 亚 马 逊 和 其 他 大 型 互联 网 公司 文 持 的 MVNet， 以 及 其 他 深度 学 
习 程 序 ， 比 如 Caffe、Theano 和 PyTorch ° 
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2011 年 ， 我 在 挪威 的 特 罗 姆 巧 组 织 举办 了 由 Kavli 基 金 会 赞助 的 “绿色 
环境 中 高 性 能 计算 的 发 展 ” (Growing High Performance Computing in a 
Green Environment) fie [1] 我 们 估计 ， 使 用 当前 的 微 处 理 颖 技 
术 ， 百 亿 亿 次 级 (exascale) 计算 [ 比 千 万 亿 次 级 (petascale) 计算 强大 
1000 倍 | 需要 50 兆 瓦 的 功率 ， 比 运行 纽约 市 地 铁 所 需 的 功率 还 多 。 
此 ， 下 一 代 超 级 计算 机 可 能 不 得 不 使 用 像 身 国 跨国 半导体 公司 Arm 
Holdings (ARM) 为 手机 开发 和 优化 的 那 种 低 功 耗 芯片 。 很 快 ， 在 大 多 
数 计算 密集 型 应 用 中 使 用 通用 数字 计算 机 将 不 再 可 行 ， 专 用 必 片 将 占 主 
导 地 位 ， 因 为 它们 已 经 被 般 入 手机 中 了 。 

人 类 大 脑 中 有 大 约 1000 亿 个 神经 元 ， 每 个 神经 元 都 与 其 他 数 千 个 神 
经 元 相连 接 ， 总 计 达 1000 万 亿 个 (1015) 突 触 连接 。 大 脑 运 转 所 需 的 功 
耗 大 约 是 20 瓦 ， 占 整个 号 体 运 转 所 需 功 率 的 20%， 尽 管 大 脑 仅 占 喘 体 质 
量 的 3%。 相 比 之 下 ， 一 台 远 不 如 大 脑 强大 的 千 万 亿 次 级 超级 计算 机 ， 功 
耗 却 为 5 兆 瓦 ， 是 大 脑 功 耗 的 25 万 倍 。 大 目 然 是 怎么 创造 出 这 一 高 效 奇 迹 
的 呢 ? 首先 ， 神 经 元 接收 和 发 送信 号 的 部 分 被 微缩 至 分 子 水 平 。 忆 外 ， 
神经 元 是 在 三 维 空间 上 连接 的 ( 微 芯 厂 表 面 的 晶体 管 仅 在 二 维 平面 上 相 
互 连 接 ) ， 这 样 就 可 以 使 所 需 空间 最 小 化 。 由 于 大 目 然 很 久 以 前 束 进 化 
出 了 这 些 技 术 ， 想 要 追赶 大 脑 的 能 力 ， 我 们 还 有 很 多 工作 要 做 。 

深度 学 习 是 高 度 计算 密集 型 的 ， 该 过 程 目前 在 中 央 服 务 右 上 完成 ， 
计算 结果 会 被 传送 到 手机 等 周边 设备 。 最 终 ， 周 边 设备 应 该 是 自主 运行 
的 ， 这 残 需 要 完全 不 同 的 硬件 一 比 云 计算 轻 得 多 ， 耗 电 也 更 少 。 驻 运 
的 是 ， 这 样 的 硬件 已 经 存在 了 ， 即 受 大 脑 局 发 设计 出 的 神经 形态 心 
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1983 年 ， 我 在 匹 效 堡 郊外 一 个 度假 村 里 举行 的 研讨 会 上 第 一 次 见 到 
了 卡 弗 : 米 德 (Carver Mead) 〈 见 图 14-1) 。 那 时 杰 弗 里 : 辛 顿 创建 了 一 
个 小 组 来 探索 神经 网 络 研究 的 发 展 趋势 。 米 德 因 其 在 计算 机 科学 领域 的 
重要 贡献 而 闻名 。 他 第 一 个 认识 到 ， 随 着 大 规模 集成 电路 芯片 上 的 晶体 
管 变 得 越 来 越 小 ， 芯 片 将 越 来 越 高 效 ， 计 算 能 力也 应 该 会 持续 增长 很 长 
一 段 时 间 。 他 还 创造 了 “摩尔 定律 "这 个 术语 ， 根 据 戈 登 .摩尔 (Gordon 
Moore) 的 观察 ， 芯 片上 的 晶体 管 数量 每 18 个 月 会 翻 一 番 。1981 年 ， 卡 弗 
发 明了 硅 编译 器 ， 从 此 成 为 业界 传奇 。 硅 编译 器 是 一 种 自动 在 芯片 上 设 
计 系 统 级 功能 模块 和 布线 的 程序 。 Ul 在 硅 编 译 器 诞生 之 前 ， 每 款 芯片 
都 是 由 工程 师 基 于 经 验 和 直觉 手工 制作 出 来 的 。 从 本 质 上 讲 ， 米 德 的 解 
决 方案 是 让 计算 机 自己 设计 芯片 。 这 是 我 们 和 迈 向 纳米 工程 的 起 点 。 


图 14-1 1976 年 的 卡 弗 . 米 德 。 正 是 在 那 段 时 期 ， 他 在 加 州 理工 学 院 创 造 了 第 一 个 硅 编 译 器 。 卡 弗 
是 一 位 有 远见 的 人 ， 他 的 洞察 力 和 引领 的 技术 进步 对 数字 和 模拟 计算 产生 了 重大 影响 。 桌 上 的 电 
话 瞳 示 了 照片 的 拍摄 时 间 。 图 片 来 源 ， 加 州 理工 学 院 。 


米 德 是 一 位 顾 有 远见 的 人 。 我 们 曾 一 起 在 匹 兹 堡 郊外 参加 一 个 研讨 
会 。 尽 管 大 家 挤 在 楼 上 一 个 小 房间 里 的 桌子 边 上 讨论 ， 但 是 正在 进行 着 
的 是 一 场 关于 超级 计算 机 的 会 议 。 当 时 Cray 和 Control Data 等 主流 超级 计 
算 机 公司 正在 设计 专用 硬件 ， 比 我 们 实验 室 的 计算 机 快 了 数 百 倍 ， 售 价 
高 达 1 亿 美元 。Cray 超 级 计算 机 速度 如 此 之 快 ， 不 得 不 用 氢 利 昂 进 行 液体 


冷却 。 米 德 告 诉 我 ， 超 级 计算 机 公司 还 不 知道 ， 通 用 微 处 理 右 将 会 占领 
它们 的 市 场 ， 这 些 公司 很 快 束 会 销声匿迹 。 虽 然 比 超级 计算 机 中 的 专用 
心 片 慢 得 多 ， 但 得 在 于 因 缩 小 基本 右 件 尺寸 所 市 来 的 成 本 压缩 和 性 能 改 
进 ， 个 人 计算 机 中 的 微 处 理 絮 进化 得 比 超级 计算 机 中 的 还 要 快 。 现 在 手 
机 中 的 微 处 理 器 的 计算 能 力 是 20 世 纪 80 年 代 Cray XMP 超 级 计算 机 的 10 
倍 ， 现 在 的 高 性 能 超级 计算 机 拥有 数 十 万 个 微 处 理 右 核心 ， 每 秒 进行 的 
浮 点 运算 达到 了 千 万 亿 次 级 别 ， 比 已 经 消失 的 Cray 超 级 计算 机 快 100 万 
倍 。 考 虑 到 通货 膨胀 ， 两 者 的 成 本 大 致 站 相同 的 。 


在 1983 年 的 那 次 研讨 会 上 ， 米 德 向 我 们 展示 了 一 个 硅 视 网 膜 ， 它 使 
用 了 与 超大 规模 集成 电路 芯片 相同 的 制造 技术 ， 但 使 用 了 模拟 而 非 数字 
电路 。 在 模拟 电路 中 ， 唱 体 管 上 的 电压 可 以 连续 变化 ， 而 数字 电路 中 的 
晶体 管 只 能 采用 “ 开 ” 或 “ 关 ” 两 个 二 进 制 值 中 的 一 个 。 人 的 视网膜 上 有 一 
亿 个 光 感 受 器 ， 与 相机 将 信息 从 光子 桶 (photon buckets) 传动 到 记忆 体 
的 方式 不 同 ， 视 网 膜 具 有 多 层 神经 处 理 功能 ， 可 将 视觉 输入 转换 为 高 效 
的 神经 编码 。 视 网 膜 的 所 有 处 理 过 程 都 是 模拟 的 ， 直 到 其 编码 信号 到 达 
神经 节 细 胞 ， 神 经 节 细胞 将 这 些 信号 沿 着 100 万 个 轴 突 ， 以 “全 或 无 ”的 放 
电 脉冲 形式 传送 到 大 脑 。 脉 冲 信 号 的 “全 或 无 ”特征 就 像 数 字 逻 辑 ， 但 放 
电 脉冲 的 时 间 是 一 个 模拟 变量 ， 没 有 时 钟 同步 ， 因 此 放电 脉冲 序列 是 一 
种 混合 编码 。 

在 米 德 的 视网膜 芯片 中 ， 处 理 过 程 的 分 级 部 分 是 通过 使 用 位 于 阔 值 
拐点 以 下 ， 从 * 关 ”到 接近 “ 关 ” 状 态 的 电压 来 完成 的 。 与 之 相反 ， 在 数字 
模式 下 运行 时 ， 晶 体 管 迅 速 跳 到 完全 “ 导 通 ”的 状态 ， 这 需要 消耗 更 多 的 
功率 。 因 此 ， 模 拟 超大 规模 集成 电路 芯片 仅 消 耗 数字 芯片 所 需 能 耗 的 一 
ha, MARSA, WRENS EIT, FERRE TAA A 
倍 。 米 德 是 神经 形态 工程 的 创始 人 ， 他 致力 于 构建 基于 大 脑 式 算法 的 芯 
片 ， 在 1989 年 ， 他 表明 舱 入 在 昆虫 和 哺乳 动物 眼睛 神经 环 路 中 的 神经 算 
法 ， 可 以 有 效 地 复制 到 芯片 上 。 [I 

视网膜 芯片 是 米 德 的 明星 研究 生 米 莎 : 马 霍 沃 德 (Misha Mahowald) 
于 1988 年 创造 的 一 项 令 人 印象 深刻 的 发 明 ( 见 图 14-2) e [4] 她 在 加 州 


理工 学 院 读 本 科 时 主 修 的 是 生物 学 。 在 研究 生 阶 段 ， 她 从 事 的 是 电子 工 
程 领域 的 工作 。 这 两 个 领域 的 结合 所 融 来 的 洞 见 帮助 她 获得 了 四 项 专 
利 。1992 年 ， 她 的 博士 论文 描述 了 在 芯片 上 的 实时 双 目 匹配 ， 这 是 第 一 
个 真正 使 用 集群 行为 完成 艰巨 任务 的 心 片 。 为 此 她 获得 了 加 州 理工 学 院 
的 米尔 顿 和 弗朗西斯 克拉 泽 奖 (Milton and Francis Clauser Prize) ° 1996 
年 ， 她 的 名 字 还 被 列 入 了 国际 技术 女性 (Women in Technology 
International, WITI) 4 A% ° 


图 14-2 1982 年 ， 加 州 理工 学 院 的 米 莎 . 马 霍 沃 德 作为 卡 弗 . 米 德 的 学 生 ， 创造 了 当时 世界 上 第 一 个 
硅 视网膜 。 她 对 神经 形态 工程 的 贡献 是 开创 性 的 。 图 片 来 源 ， 托 比 德 尔 布 吕 克 。 


品 体 管 在 赋值 附近 的 物理 特性 ， 与 生物 膜 中 离子 通道 的 生物 物理 特 
性 之 间 存 在 密切 的 对 应 关系 。 马 霍 沃 德 与 牛津 大 学 的 神经 科学 家 凯 万 : 马 
J (Kevan Martin) 和 罗 德 尼 : 道 格拉 斯 (Rodney Douglas) 合作 开发 过 侍 
神经 元 ， [3] 并 随同 他 们 一 起 搬 到 了 苏黎世 ， 帮 助 他 们 在 苏黎世 大 学 和 
瑞士 联邦 理工 学 院 建立 了 神经 信息 学 研究 所 ( 见 图 14-3) 。 然 而 后 来 ， 


E EUM E 时 年 33 
° 一 位 杰出 的 新 星 束 此 陨落 


图 14-3 了 硅 神 经 元 。 该 模拟 大 规模 集成 电路 必 片 具有 类 似 于 神经 元 中 离子 通道 的 电路 ， 
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卡 弗 . 米 德 于 1999 年 从 加 州 理工 学 院 退 休 后 搬 到 了 西雅图 ，2010 年 我 
去 拜访 过 他 。 在 他 家 的 后 院 ， 可 以 看 到 飞机 飞 过 水 面 有 序 地 降落 到 Sea- 
Tac 机 场 。 他 的 父亲 是 一 位 工程 师 ， 在 大 谍 水 电 项 目的 一 座 发 电厂 工作 ， 
该 项 目 是 位 于 加 州 中 部 内 华 达 山脉 圣 华 金 河上 游 系统 的 一 个 大 型 水 电 项 
目 。 从 早期 的 水 电 技 术 向 微 电 子 技术 的 飞 路 ， 仪 仅 论 了 一 代 人 的 时 间 ， 
真 令 人 难以 置信 。 卡 弗 的 爱好 是 收集 用 于 巧 挂 电线 的 古董 玻璃 和 陶 交 绝 
缘 子 。 如 采 你 选 对 了 地 点 ， 了 束 会 像 寻 找 散 落 的 印第安 箭头 一 样 轻松 地 找 
到 它们 。 卡 弗 目 光 长 远 〈 他 拥有 一 人 台 激 光 陀 螺 仪 ， 曾 经 被 用 来 测试 量子 


物理 学 的 新 方法 ) , (Sl 而 他 之 所 以 如 此 高 效 ， 是 因为 他 致力 于 打造 不 
仅 能 够 正常 运转 ， 还 可 以 被 你 拿 在 手中 把 玩 的 东西 。 


神经 形态 工程 


1990 年 ， 作 为 在 加 州 理工 学 院 休 学 术 年 假 的 仙 董 杰出 学 者 ， 我 喜欢 
参加 实验 室 会 议 ， 尤 其 是 克里斯托弗 . 科 赫 (Christof Koch) (一 位 和 我 
有 着 共同 兴趣 的 计算 神经 科学 家 ) 和 他 的 同事 的 会 议 ， 以 及 Carverland 
即 卡 弗 : 米 德 的 研究 小 组 的 会 议 。Carverland 有 一 个 令 人 惊叹 的 项 目 RE 
耳蜗 ， 它 具有 和 我 们 耳 中 的 耳蜗 相 类 似 的 频率 调谐 电路 。 其 他 人 研究 人 员 
正在 研究 硅 突 触 ， 包 括 模仿 突 触 可 塑性 的 硅 机 制 ， 以 便 可 以 在 人 硅 蕊 片上 
实现 长 期 的 权重 变化 。 来 自 Carverland 人 研究 小 组 的 学 生 从 那 时 开始 走出 实 
验 室 ， 进 入 了 世界 各 地 的 工程 学 院 。 


1993 年 ， 殉 里 斯 托 弗 . 科 赫 、 罗 德 尼 : 道 格拉 斯 和 我 成 立 了 由 NSF 货 助 
的 神经 形态 工程 研讨 会 ， 每 年 7 月 在 科罗拉多 州 特 柳 赖 德 (Telluride) 市 
举行 为 期 三 周 的 会 议 。 这 个 研讨 会 是 国际 性 的 ， 参 会 的 学 生 和 教师 来 目 
不 同 的 背景 和 国家 。 与 大 多 数 讲座 多 于 实践 的 研讨 会 不 同 ， 特 柳 赖 德 研 
讨 会 的 房间 里 挤 满 了 用 微 芯 片 来 构建 机 器 人 的 学 生 。 不 过 有 一 个 问题 ， 
将 视网膜 心 片 连接 到 视觉 皮层 心 片 ， 再 将 皮层 心 片 连接 到 电机 输出 心 
刻 ， 这 一 步骤 需要 用 到 大 量 的 连 线 。 


用 放电 脉冲 (spikes) 连接 模拟 大 规模 集成 电路 心 族 则 要 好 得 多 ， 我 
们 的 大 脑 通 过 白质 的 长 距离 轴 突 传输 信息 也 是 利用 了 这 种 方式 ， 这 些 日 
质 构成 了 我 们 一 半 的 大 脑 皮 层 。 但 将 视网膜 心 片 和 皮层 心 请 通过 上 百 万 
根 线 连 接 起 来 却 完全 行 不 通 。 笠 运 的 是 ， 快 速 的 数字 逻辑 可 以 用 来 使 每 
根 导 线 多 路 复 用 ， 让 许多 视网膜 细胞 能 够 与 同一 导线 上 的 多 个 皮层 细胞 
进行 通信 。 这 一 过 程 是 通过 发 送 心 片 ， 把 每 一 个 原始 脉冲 的 地 址 发 送 给 
接收 忌 片 来 实现 的 ， 接 收 羽 斤 解 码 地 址 ， 并 路 由 到 与 它 相 连接 的 相应 单 
元 ， 即 所 谓 的 “地 址 事件 表示 ” (address event representation) ° 


HAG BRASH ( 见 图 14-4) 是 卡 弗 : 米 德 的 研究 生 之 一 ， 7 
他 现在 在 苏黎世 大 学 神经 信息 学 研究 所 工作 。2008 年 ， 他 开发 了 一 种 非 
Fis BN Bk YH FUP BS Ar, Eo) AS AU oe FER ae” (Dynamic Vision 
Sensor， 以 下 简称 DVS) 。 这 个 心 片 可 以 简化 一 些 视觉 任务 ， 例 如 跟踪 
移动 物体 ， 或 用 两 台 摄像 机 对 物体 进行 深度 定位 (MLELA, FA) 。 
[8] 传统 的 数码 相机 是 基于 图 像 帧 的 ， 录 制 视频 的 过 程 就 是 存储 一 系列 间 
隔 大 约 26 毫 秒 的 图 像 。 这 种 做 法 会 丢失 帧 与 帧 之 间 的 信息 : 设想 一 个 旋 
转 的 托盘 ， 转 速 是 每 秒 200 转 ， 盘 上 有 一 个 光 点 随 盘 转动 ， 该 光 点 会 在 每 
一 帧 中 旋转 5 次 ， 但 是 数码 相机 的 回放 效果 看 起 来 像 一 个 静态 环 (见方 杠 
14.1) 。 相 比 之 下 ， 德 尔 布 吕 克 的 脉冲 摄影 机 可 以 以 微 秒 级 的 精度 跟踪 
移动 点 ， 并 且 只 需 很 少量 的 脉冲 ， 因 此 速度 很 快 ， 而 且 效 率 很 高 。 作 为 
第 一 款 基 于 脉冲 和 触发 定时 的 新 一 代 传 感 器 ，DVS 相 机 具有 很 大 的 洪 
力 ， 可 以 改善 包括 自动 驾驶 汽车 在 内 的 许多 应 用 的 性 能 。2013 年 特 柳 赖 
德 研讨 会 的 其 中 一 个 项 目 ， 就 是 用 它 来 阻挡 来 自 桌面 的 进 球 ( 见 图 14- 
5) 。 
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图 14.4 动态 视觉 传感器 (DVS) 。 (EE) JtRHUENH UICE B HRA ote REE AE, 
学 研究 所 发 明 的 DVS 相 机 。 这 种 相机 采用 了 专用 芯片 ， 可 以 异步 发 射 脉冲 ， 而 不 是 像 数码 相机 屠 
样 按 巾 采 集 图 像 。 (FE) 相机 的 镜头 将 图 像 聚 焦 在 模拟 超大 规模 集成 电路 芯片 上 ， 芯 片 会 对 每 


pi 


个 像素 上 光 强 度 的 增加 或 减少 进行 检测 。 脉 冲 沿 着 “开启 ” (on) 导线 发 出 正 增 量 ， 并 沿 着 “ 关 
Hj" (off) 导线 发 出 负 增 量 。 输 出 脉冲 由 电路 板 处 理 ， 电 路 板 会 显示 出 例如 方 框 14.1 中 的 脉冲 图 
和 案 。 你 的 视网膜 是 一 iui. AU M 来 自视 网 膜 的 脉冲 图 案 在 大 脑 中 发 生 了 转换 ， 但 该 
模式 仍然 保留 了 脉 1 在 任何 完整 的 图 像 ， 即 使 你 是 以 这 种 方式 感知 世界 
的 。 上 图 来 源 ， 托 拜 厄 斯 : BENEH- KEIR: 三 星 。 


14.1 
动态 视觉 传感器 的 工作 原理 


~80 Events in 300 HS 


在 上 图 DVS 摄 像 机 的 图 像 帧 中 ， 日 点 是 来 自 “ 开 ”(on) 通道 的 脉 
冲 ， 黑 点 是 来 自 “ 关 ”(off) 通道 的 脉冲 。 灰 色 表 示 没 有 脉冲 。 在 左上 
方 的 图 片 中 ， 可 以 检测 到 两 个 脸 部 ， 因 为 它们 在 26 茎 秒 的 帧 间 际 内 发 
生 了 轻微 的 移动 。 在 右上 角 的 〈 杂 要 ) 图 片 中 ， 斑 点 的 到 达 时 间 由 灰 
度 表 示 ， 因 此 束 能 看 到 物体 的 移动 轨迹 。 左 下 方 岁 片 中 的 旋转 盘 以 每 
秒 200 转 (rps) 的 速度 旋转 。 在 底部 中 间 的 图 片 中 ， 轨 迹 是 向 上 移动 
的 蛙 旋 。 右 下 方 时 旋 短 暂 的 300 微 秒 切 片 中 ， 只 有 80 个 脉冲 ， 通 过 测 
量 黑色 和 白色 脉冲 的 位 移 ， 并 除 以 时 间 间 隔 ， 很 容易 计算 出 速度 。 请 
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的 点 ， 因 为 旋转 周期 为 5 蝇 秒 ， 并 且 每 个 帧 都 显示 了 一 个 环 。DVS 相 
机 的 唯一 输出 是 一 串 脉 冲 ， 整 像 视网膜 一 样 。 这 是 表现 场景 的 有 效 方 
式 ， 因 为 大 部 分 像素 在 大 多 数 时 间 都 剑 持 不 变 ， 而 每 个 脉冲 都 携 市 着 
有 用 的 信息 。 

片 来 源 : P. Lichtsteiner, C. Posch, and T. Delbruck, “A 128x128 
120 dB 15 ys Latency Asynchronous Temporal Contrast Vision 


Sensor,” IEEE Journal of Solid-State Circuits 43, no. 2 (2008): 图 11。 资 料 
UR: FERVENT BRAG oe e 


脉冲 神经 元 为 计算 领域 打开 了 新 的 机 会 。 例 如 ， 神 经 元 群体 中 放电 
脉冲 的 时 间 可 用 于 调整 存储 的 信息 类 型 。1997 年 ， 享 利 : 马 克拉 姆 
(Henry Markram) 和 德国 的 伯 特 : 陕 克 曼 (Bert Sakmann) 报道 说 ， 通 过 
对 突 触 的 输入 信号 和 突 触 后 神经 元 的 输出 信号 的 重复 配对 ， 他 们 能 够 对 
突 触 强度 进行 增 减 。 [3] 如 果 突 触 输入 放电 发 生 在 突 触 输 出 放电 之 前 的 
20 宫 秒 窒 口内 ， 突 触 会 保持 长 期 增强 ， 但 如 果 突 触 输入 放电 的 重复 配对 
发 生 在 突 触 输出 放电 之 后 的 20 毫 秒 窗口 内 ， 则 突 触 会 保持 长 期 衰减 ( 见 
图 14-6) 。 据 报道 , “放电 时 序 依赖 可 塑性 ”(\Spike-timing-dependent 
plasticity， 人 简称 STDP) 曾经 被 发 现 于 许多 物种 大 脑 中 的 不 同 部 位 ， 这 种 
可 塑性 可 能 对 事件 序列 在 脑 中 形成 长 期 记忆 起 着 重要 的 作用 ， 但 同样 重 
要 的 是 ， 它 很 好 地 解释 了 替 布 的 假定 (在 第 7 章 中 已 经 进行 了 讨论 ) 
[10] 
Hii FY E ERE RMA E, I4— T RESTCIN S LANCRU SÉ tB NY SL 
电 脉 冲 时 ， 突 触 的 强度 会 增加 ， 这 是 一 种 重合 检测 的 形式 。 但 是 赫 布 实 
际 上 说 的 是 ,，“ 当 细胞 A 的 轴 突 接近 到 足以 激发 细胞 B， 并 反复 或 持续 参 
与 放电 激发 细胞 B 时 ， 细 胞 的 一 些 生 长 过 程 或 代谢 变化 会 发 生 在 其 中 一 个 
或 两 个 细胞 中 ， 使 得 细胞 A (作为 激发 细胞 B 的 细胞 之 一 ) 激发 细胞 B 的 
效率 增加 ”。 DLL 如 果 细 胞 A 对 激发 细胞 B 有 贡献 ， 那 么 细胞 A 必 须 在 细 
胞 B 中 的 “ 受 激 发 脉冲 ”之 前 发 射 一 个 “激发 脉冲 ”。 正 如 赫 布 所 描述 的 ， 这 


种 情况 提示 了 一 种 因 采 关系 ， 而 不 仅仅 是 相关 性 。 尽 管 赫 布 没有 对 降低 
突 触 强 度 的 条 件 进 行 描 述 ， 但 当 输 入 放电 脉冲 发 生 在 输出 放电 脉冲 之 后 
时 ， 输 入 脉冲 束 不 太 可 能 导致 输 出 神经 元 发 生 脉冲 。 如 有 果 从 长 远 来 看 ， 
突 触 强度 的 增强 和 降低 必须 达到 平衡 ， 那 么 这 时 断 开 突 触 是 讲 得 通 的 。 
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图 14-5 2013 年 ， 特 柳 赖 德 神经 形态 工程 研讨 会 中 的 神经 形态 守门 员 。 (ER) Fopefolu 
Folowosele (ÆW) 在 测试 神经 形态 守门 员 ( 右 侧 ) 。 其 他 学 生 和 他 们 的 项 目 可 以 在 背景 中 看 
到 。 (下 图 ) 德尔 布 吕 克 的 DVS 相 机 能 驱动 油漆 搅拌 棒 转 动 。 这 个 守门 员 的 动作 比 学生 要 快 得 
多 ， 并 且 成 功 地 守住 了 每 一 个 射门 。 我 也 尝试 过 ， 但 是 未 能 进 球 。 图 片 来 源 : FERRET FE TH 
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图 14-6 放电 时 序 依赖 的 可 塑性 (STDP) 。 (ÆR) 伟大 的 西班牙 神经 解剖 学 家 圣迭戈 - 拉 蒙 - 卡 哈 
尔 (Santiago Ramóny Cajal) 绘制 的 皮层 中 的 锥 体 神经 元 。 神 经 元 A 的 输出 轴 突 通过 突 触 与 神经 元 
C 的 树 突 接触 (如 箭头 所 示 ) 。 ( 右 图 ) 与 左 侧 图 中 类 似 的 两 个 神经 元 被 用 电极 穿刺 并 施加 刺 
激 ， 使 两 个 神经 元 产生 的 尖峰 之 间 存 在 时 间 延 迟 。 当 神经 元 的 输入 放电 与 输出 放电 重复 配对 时 ， 
如 果 突 触 前 神经 元 放电 在 突 触 后 神经 元 放电 之 前 20 毫 秒 的 窗口 内 到 达 ， 则 突 触 强度 (垂直 轴 ) JB 
加 。 如 果 顺 序 相 反 ， 则 强度 降低 。 左 图 来 源 : Ramóny Cajal, S. Estudios Sobre la Degeneración y 
Regeneracióndel Sistema Nervioso(Moya, Madrid, 1913-1914), #1281 。 右 图 来 源 : G. Q. Bi and 
M. M. Poo, “Synaptic Modifications in Cultured Hippocampal Neurons: Dependence on Spike Timing, 
Synaptic Strength, and Postsynaptic Cell Type,” Journal of Neuroscience 18 (1998): 10464-10472, 图 7。 
资料 来 源 : SHAH 


在 特 柳 赖 德 神经 形态 研讨 会 上 ， 模 拟 超大 规模 集成 电路 倡导 者 和 数 
字 超 大 规模 集成 电路 设计 师 之 间 存 在 着 一 场 持 续 不 断 的 和 争论。 模拟 超大 
规模 集成 电路 忆 斤 有 许多 优点 ， 例 如 所 有 电路 并 行 工 作 时 功 耗 非常 低 ， 
但 也 存在 缺点 ， 例 如 由 于 晶体 管 的 多 样 性 ， 在 设计 图 上 相同 的 晶体 管 产 


生 的 电流 可 以 相差 t50%。 相 比 之 下 ， 数 字 超大 规模 集成 电路 虽然 比较 精 
确 ， 速 度 更 快 ， 设 计 更 容易 ， 但 需要 消耗 更 多 的 功率 。 德 尔 门 德 拉 . 莫 德 
哈 (Dharmendra Modha) 在 加 利 福 尼 亚 州 阿尔 马 登 市 (Almaden) IBM 
研究 所 的 团队 开发 了 一 款 数 字 芯 片 ， 包 含 4096 个 处 理 核心 和 54 亿 个 晶体 
管 ， 被 称 为 “True North” 。 H2] 尽管 该 芯片 可 以 被 配置 来 实现 模拟 100 万 
个 突 触 神经 元 ， 并 连接 2.68 亿 个 突 触 ， 却 仅仅 需要 消耗 70 毫 瓦 的 功率 。 
但 是 这 些 突 触 的 强度 是 固定 的 ， 这 种 不 变性 限制 了 对 许多 重要 特征 的 实 
现 ， 如 强度 的 弱化 或 增强 。 

具有 脉冲 神经 元 的 网 络 还 有 另 一 个 缺点 ， 即 梯度 下 降 。 脉 冲 时 间 是 
不 连续 的 ， 而 梯度 下 降 要 求 神经 元 的 输入 输出 值 在 时 间 上 是 连续 的 。 这 
就 限制 了 可 训练 脉冲 网 络 的 复杂 性 。 梯 度 下 降 在 训练 “输出 随 输 入 连续 变 
化 ”神经 元 的 深度 网 络 方面 取得 了 巨大 成 功 ， 神 经 元 的 输出 函数 是 可 微分 
的 ， 这 是 反 向 传播 学 习 算 法 的 基本 特征 。 尽 管 在 不 可 微分 脉冲 网 络 中 ， 
脉冲 的 发 生 不 具有 连续 性 ， 但 是 我 实验 室 的 博士 后 研究 员 本 . 哈 (Ben 
Huh) 最 近 克 服 了 这 个 缺点 ， 他 找到 了 一 种 方法 ， 能 够 让 脉冲 神经 元 的 
循环 网 络 模型 使 用 梯度 下 降 ， 在 长 时 间 序 列 上 执行 复杂 的 任务 。 [13] 这 
一 成 果 打 开 了 深度 脉冲 网 络 的 大 门 。 


摩尔 定律 的 终结 


正如 摩尔 定律 预测 的 那样 ， 自 20 世 纪 50 年 代数 字 计 算 机 发 明 以 来 ， 
计算 机 的 能 力 增 加 了 超过 1 万 亿 倍 。 从 来 没有 技术 能 以 如 此 高 的 数量 级 呈 
指数 增长 ， 计 算 机 已 经 融入 了 几乎 所 有 制造 设备 ， 从 玩具 到 汽车 。 计 算 
机 可 以 目 动 调节 现代 望远镜 的 目 适 应 光学 系统 ， 以 最 大 限度 地 提高 其 分 
辩 率 ， 它 们 可 以 分 析 现 代 显 微 镜 捕获 的 光子 ， 以 超 分 辩 率 定位 分 子 。 当 
今 的 每 一 个 科技 领域 都 依赖 于 超大 规模 集成 电路 心 片 。 

卡 弗 : 米 德 预测 ， 这 些 心 片 的 升级 是 基于 缩小 元 件 间 线 宽 的 可 能 性 ， 
但 是 目前 的 宽度 已 经 达到 了 物理 极限 : 导线 中 的 电子 太 少 ， 可 能 会 泄漏 


或 被 随机 电压 阻挡 ， 甚 至 使 数字 电路 都 不 再 可 靠 。 HA 摩尔 定律 要 终结 
TE? 我 们 需要 完全 不 同 的 体系 结构 来 继续 提高 处 理 能 力 ， 这 种 结构 能 
够 不 依赖 于 数字 设计 的 完美 精度 。 正 如 混合 动力 汽车 将 电动 机 的 效率 与 
汽油 发 动机 的 续航 结合 起 来 一 样 ， 混 合 数 字 和 神经 形态 设计 正在 兴起 ， 
能 够 将 神经 形态 芯片 的 计算 低 功 耗 与 通信 数字 芯片 的 高 带宽 相 结 合 。 

摩尔 定律 的 表述 仅仅 是 基于 芯片 的 处 理 能 力 。 随 着 并 行 架构 在 随后 
50 年 内 的 不 断 发 展 ， 摩 尔 定律 应 该 被 考虑 了 能 量 和 吞吐 量 的 定律 所 取 
代 。 在 俄 勒 闪 州 波 特 兰 举办 的 英特尔 2018 NICE 大 会 上 ， 来 自 美 国 和 欧洲 
的 研究 人 员 展 示 了 三 款 新 的 神经 形态 芯片 ， 来 自 英特尔 的 Loihi 研 究 芯 
片 ， 以 及 由 欧洲 人 类 大 脑 项 目 支持 的 两 款 第 二 代 芯 片 。 随 着 大 规模 并 行 
体系 结构 的 发 展 ， 能 够 在 这 些 体系 结构 上 运行 的 新 算法 也 陆续 被 创造 出 
来 。 但 是 这 些 体系 结构 中 的 芯片 需要 交流 信息 ， 这 也 是 第 15 章 所 要 讨论 
的 内 容 。 
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15 
信息 科学 


我 从 来 没有 想 过 ， 有 一 天 我 会 成 为 无 所 不 知 的 人 ， 而 事实 上 ， 我 和 
现在 任何 能 上 网 的 人 都 做 到 了 。 信 息 在 互联 网 上 以 光速 传播 ， 从 互联 网 
上 获取 信息 比 从 书架 上 的 书 里 获取 信息 更 方便 。 我 们 生活 在 各 种 形式 的 
言 妨 爆炸 的 时 代 。 科 学 仪 磊 ， 从 望远镜 到 显 微 锐 ， 搜 集 的 信息 量 远 超 现 
在 训练 机 器 学 习 所 使 用 的 数据 集 。 美 国 国家 安全 局 使 用 机 器 学 习 来 过 滤 
他 们 从 各 处 搜集 到 的 信息 。 经 济 活动 走 同 了 数 子 化 ， 许 多 公司 对 有 编程 
技能 的 人 才 的 需求 量 与 日 俱 增 。 在 世界 从 工业 经 济 走向 信息 经 济 的 同 
时 ， 教 育 和 职业 培训 也 必须 适应 这 一 变化 。 这 一 切 已 经 对 我 们 的 世界 产 
生 了 深远 影响 。 


HFT LEES 


1948 年 ， 在 AT&T 公 司 位 于 新 泽 西 州 默 里 山 (Murray Hill) 的 贝尔 实 
验 室 里 ， 克 劳 德 :香农 (Claud Shannon， 见 图 15-1) 提出 了 一 种 非常 简单 
却 很 微妙 的 信息 理论 ， 来 理解 有 噪声 的 电话 线 里 的 信号 传输 问题 。 L1] 
香农 的 理论 推动 了 数字 通信 的 革命 ， 并 为 移动 电话 、 数 字 电 视 以 及 互联 
网 的 诞生 黄 定 了 基础 。 打 电话 的 时 候 ， 你 的 声音 被 编码 为 “比特 ”， 通 过 
无 线 电 波 和 数字 电缆 传送 到 接收 端 ， 接 收 端 再 将 比特 解码 并 转化 为 声 
首 。 信 息 论 给 通信 信道 (图 15-2) BU GENET ER, XS OR RBS 
不 同 编码 也 被 设计 了 出 来 。 


Bs 1 克 劳 德 .香农 与 电话 交换 网 络 (照片 拍摄 于 1963 年 前 后 ) 。 他 发 明 信 息 论 时 仍 在 AT&T 贝 尔 
实验 室 任职 。 图 片 来 源 : Alfred Eisenstaedt/The LIFE Picture NP e Pu. $ 


发 送信 息 编码 信息 理解 信息 
727.9 — 6 NM 
TR 二 进 制 比特 
编码 和 压缩 aa 
检查 比特 
信道 容量 
噪声 
比特 率 


图 15-2 香农 的 通信 系统 模型 。 该 消息 被 编码 成 二 进 制 比特 ， 并 沿 着 一 条 可 能 是 电话 线 或 无 线 电波 
的 信道 向 下 传输 ， 在 终端 被 接收 和 解码 。 以 “每 秒 比 特 数 "为 单位 的 信道 容量 取决 于 系统 中 的 噪声 
Re 


尽管 世界 上 的 信息 形式 丰富 多 样 ， 有 一 种 测量 方式 却 能 够 精确 测量 
一 个 数据 集中 信息 的 大 小 。 信 息 的 单位 是 二 进 制 比 等 ， 每 个 比特 只 能 有 0 


BI PPE S —TEUESST ER o AWN BAA DA JE^E Bk 
AWAPE S PSI EARI (GB) 或 称 千 兆 字 节 计 
数 。 网 络 上 的 数据 以 拍 字 节 (PB) 或 称 百 万 吉 字 有 计数 。 


用 数学 思维 解决 通信 难题 


在 IEEE (电气 和 电子 工程 师 协 会 ) 的 年 度 国 际 研讨 会 上 ，IEEE 信 息 
理论 学 会 (TS) 都 会 颁发 * 克 劳 德 .香农 奖 "， 这 是 表彰 这 一 领域 杰出 研究 
成 果 的 高 级 荣誉 。 在 1985 年 英国 布 菜 顿 举办 的 该 学 会 的 会 议 上 , “香农 
奖 »* 被 颁发 给 了 南 加 州 大 学 的 所 罗 门 :哥伦布 (Solomon Golomb ， 图 15- 
3) ， 他 在 移 位 寄存 器 序列 (shift register sequences) 方面 的 工作 为 现代 
数字 通信 奠定 了 基础 。 [2] 移 位 寄存 器 序列 是 一 种 生成 0 和 1 的 长 伪 随 机 
序列 的 算法 。 每 次 你 用 手机 打 电话 时 ， 都 使 用 了 移 位 寄存 器 序列 。 哥 伦 
布展 示 了 如 何 使 用 移 位 寄存 器 序列 对 信号 进行 高 效 编码 ， 然 后 可 以 在 接 
收 器 处 传输 和 解码 。 如 果 将 手机 和 其 他 通信 系统 产生 移 位 寄存 器 序列 的 
次 数 累加 起 来 ， 得 到 的 数字 将 是 惊人 的 : Bott BB. BU107 次 
(1,000,000,000,000,000,000,000,000,000) ° [3] 


n PE da 


图 15-3 所 罗 门 :哥伦布 在 2013 年 获得 了 美国 国家 科学 奖章 。 他 对 移 位 寄存 器 序列 进行 的 数学 分 析 
人 坏人 类 能 够 与 深 空 探测 器 通信 ， 当 时 他 在 位 于 帕 萨 迪 纳 (Pasadena) 的 加 州 理工 学 院 喷气 推进 实 
验 室 (IPL) 工作 ; 移 位 寄存 器 序列 后 来 被 甬 入 到 手机 通信 系统 中 。 每 当 你 使 用 手机 的 时 候 ， 都 
在 使 用 他 的 数学 代码 。 图 片 来 源 : 南 加 州 大 学 。 


我 曾 问 过 所 有 罗 门 哥伦布 (也 是 我 的 岳父 ) 他 是 如 何 得 到 如 此 优雅 的 
方案 来 解决 通信 问题 的 。 他 说 这 是 来 和 目 他 在 数论 方面 的 训练 ， 这 是 数学 
中 最 抽象 的 部 分 之 一 。 当 他 在 巴尔 的 摩 的 Glenn 工 . Martin 公 司 做 暑期 实习 
生 时 ， 束 曾 接 触 过 移 位 寄存 器 序列 。1956 年 ， 在 哈佛 大 学 获得 数论 专业 

(一 种 高 度 抽象 的 数学 领域 ， 的 博士 学 位 后 ， 他 到 了 加 州 理工 学 院 喷 气 
推进 实验 室 (Jet Propulsion Laboratory， 以 下 简称 JPL) 工作 。 在 那里 ， 
他 担任 通信 组 的 负责 人 ， 并 从 事 空间 通信 工作 。 深 空 探测 器 被 发 送 到 太 
阳 系 的 远 端 ， 但 返回 的 信号 微弱 且 嘲 杂 。 移 位 寄存 器 序列 和 纠 错 码 大 大 
改善 了 与 空间 探测 器 通信 的 效果 ， 相 同 的 数学 原理 更 是 为 现代 数字 通信 
葛 定 了 基础 。 

哥伦布 在 JPL 的 时 候 曾 聘请 过 男 一 位 杰出 的 信息 理论 家 安德鲁 -维特 
比 (Andrew Viterbi) ， 并 将 他 介绍 给 了 从 麻 省 理工 来 JPL 休 学 术 年 假 的 
厄 文 . 雅 各 布 (Irwin Jacobs) 。 几 十 年 后 的 1985 年 ， 维 特 比 和 雅 各 布 联手 
创建 了 高 通 ， 从 此 彻底 改变 了 手机 技术 。 该 公司 使 用 移 位 寄存 器 序列 将 


ATHERTON 
效 。 该 想法 的 一 个 简单 版 本 可 以 追溯 到 海 蒂 . 拉 玛 (Hedy Lamar) CEI 
15-4) ， 她 是 一 位 电影 演员 兼 发 明 家 ， 于 1941 年 与 他 人 共同 分 享 了 跳 频 
(frequency hopping) 技术 的 专利 ， 这 是 她 在 第 二 次 世界 大 战 期 间 为 军 方 
开发 的 安全 通信 系统 。 A 哥伦布 离开 JPL 加 入 南 加 州 大 学 后 ， 爱 德 华 - 波 
斯 纳 《就 是 创建 了 NIPS 的 爱德华 .波斯 纳 ) 接管 了 他 的 团队 ， 但 哥伦布 仍 
然 在 继续 为 他 的 前 JPL 团 队 提 供 支 持 和 建议 。 


图 15-4 海带 拉 玛 于 1940 年 在 米 高 j 梅 拍摄 的 宣传 照 。 她 是 第 二 次 世界 大 战 期 间 舞台 和 银 人 幕 上 的 明 
星 ， 也 是 跳 频 技 术 的 联合 发 明 人 之 一 。 该 技术 与 军 方 和 许多 手机 中 使 用 的 扩 频 通信 和 有关。 


移 位 寄存 器 序列 背后 的 数学 是 数论 中 比较 深奥 的 部 分 。 当 哥伦布 从 
哈佛 大 学 获得 博士 学 位 时 ， 他 的 博士 生 导 师 和 当时 的 大 多 数 数学 家 都 相 
信 ， 纯 数学 永远 不 会 有 任何 实际 的 应 用 。 剑 桥 学 者 哈代 (G. H. Hardy) 
在 其 富 于 影响 力 的 著作 《一 位 数学 家 的 道歉 》 (A Mathematician's 
Apology) [B] 中 分 享 了 这 种 观点 。 他 宣称 “好 * 的 数学 必须 是 纯粹 的 ， 而 
应 用 数学 是 “无 趣 的 ”。 但 数学 只 是 数学 本 身 ， 并 没有 纯粹 和 应 用 之 分 。 


一 些 数 学 家 可 能 希望 他 们 的 数学 是 纯粹 的 ， 但 他 们 无 法 阻止 它 解决 现实 
世界 中 的 实际 问题 。 事 实 上 ， 哥 伦 布 的 职业 生涯 主要 是 通过 找到 “* 纯 数 
学 ”中 正确 的 工具 来 解决 实际 问题 而 被 定义 的 。 

哥伦布 还 发 明了 数学 游戏 。 他 的 书 《 多 格 骨牌 》 (Polyominoes ) 
[6] 引入 了 包含 许多 个 正方 形 的 各 种 形状 ， 扩 展 了 只 有 两 格 正方 形 的 多 米 
诺 骨 牌 。 马 丁 . 加 德 纳 (Martin Gardner) 在 《科学 美国 人 》 的 “数学 游 
戏 ” 专 栏 中 推广 了 多 格 骨 牌 。 四 格 骨牌 (Tetrominoes) ， 是 由 四 个 方块 组 
成 的 形状 ， 俄 罗斯 方块 的 灵感 就 来 源 于 此 。 俄 罗斯 方块 是 一 款 会 令 人 上 
Rani, DOR ARM EERE POR, BARES SBR 
的 插 槽 。 多 格 骨 牌 至 今 仍 然 是 一 种 流行 的 棋盘 游戏 ， 并 且 在 数学 的 一 个 
子 领域 里 引发 了 一 系列 有 趣 的 组 合 问题 。 

哥伦布 也 是 研究 《圣经 》 的 学 者 ， 会 说 几 十 种 语言 ， 包 括 日 语 和 普 
通话 。 比 阿 特 丽 斯 曾经 带 给 他 道格拉斯 : 霍 夫 斯 塔 特 (Douglas 
R.Hofstadter) 的 著作 《 哥 德 尔 、 艾 舍 尔 、 巴 赫 : 集 异 壁 之 大 成 》 

(Gódel,Escher, Bach: An Eternal Golden Braid ) 的 初版 。 他 打开 卷首 ， 

标题 说 这 是 古 希 伯 来 语 《 创 世 记 》 的 前 20 行 。“ 上 站 先 ， 它 是 三 倒 的 。” 他 
说 ， 然 后 把 书 转 过 来 ,“ 其 次 ， 这 是 古 撒 玛 利 亚 语 ， 而 不 是 古 希 伯 来 语 。 
第 三 ， 这 不 是 《 创 世 记 》 的 前 20 行 ， 只 是 《 创 世 记 》 前 20 行 每 行 的 前 7 个 
字 。” 他 继续 读 下 去 ， 并 翻译 了 这 段 经 文 。 

克 劳 德 :香农 参加 了 1985 年 在 布 羔 顿 举行 的 ITS 座 谈 会 ， 哥 伦 布 在 会 
上 做 了 一 场 香农 讲座 。 这 是 香农 继 1972 年 自己 的 那 次 讲座 后 ， 参 加 的 唯 
一 一 次 香农 讲座 。 


预测 是 如 何 产生 的 


在 通信 系统 中 ， 无 论 是 空间 上 还 是 时 间 上 ， 变 化 都 具有 很 高 的 信息 
价值 。 强 度 均匀 的 图 像 和 没有 变化 的 信号 一 样 ， 几 乎 不 提供 任何 信息 。 
癌 大 脑 发 送信 号 的 传 感 絮 主要 用 来 检测 变化 ， 我 们 已 经 在 第 5 草 的 视网膜 


和 第 14 章 中 托 拜 厄 斯 -德尔 布 昌 克 的 DVS 相 机 中 看 到 了 一 些 例子 。 一 旦 在 
uq s 图 像 会 在 几 秒 钟 后 消失 。 U 尽管 我 们 没有 意识 到 

一 点 ， 我 们 的 眼睛 进行 的 微小 跳动 ， 即 微 跳动 (microsaccades) , 
ui. 每 次 跳动 都 会 刷新 我 们 大 脑 内 部 针对 外 部 世界 所 搭 
建 的 模型 。 当 外 部 世界 的 某 些 事物 发 生 移 动 时 ， 视 网 膜 会 及 时 向 上 报 
告 ， 它 们 的 报告 还 更 新 了 大 脑 的 外 界 模 型 ， 如 图 15-5 所 示 。 大 脑 的 模型 
是 一 个 层级 结构 的 模型 ， 传 入 的 感官 信息 和 模型 期 望 值 之 间 的 比较 发 生 
在 多 个 层次 上 。 (8) 明亮 的 闪光 或 巨大 的 噪声 ， 通 过 自 下 而 上 地 突显 差 
异 ， 立 刻 引 起 了 你 的 注意 。 但 是 你 通过 对 记忆 自 上 而 下 的 比较 ， 注 意 到 
桌面 上 的 某 些 东西 在 更 高 的 层级 上 发 生 了 变化 。 所 有 这 些 在 大 脑 中 实时 
发 生 的 事情 ， 都 会 让 人 想起 卡 弗 . 米 德 的 口头 禅 , “时 间 是 它 自己 的 代 
表 ”。 [9] 


预测 误差 


ASS z-* 
I-E EEUU 
adele V ) 
感官 输入 


图 15-5 具有 层级 结构 的 预测 编码 框架 。 感 知 取决 于 对 早期 感官 事件 提取 的 规律 性 的 期 望 。 在 这 个 
框架 中 ， 由 较 高 层级 皮层 产生 的 当前 感知 信号 的 预测 来 自 E 和 R 群 体 之 间 的 相互 作用 ， 并 且 被 反 
馈 到 下 面 的 层级 (E 是 误差 单元 ，R 是 表征 单元 ) 。 只 有 预测 误差 会 向 前 传播 。 这 是 对 玄 姆 堆 效 
无 意识 推理 的 实现 。 图 片 来 源 : Gábor Stefanics, Jan Kremlácek, and Istvan Czigler, “Visual 


Mismatch Negativity: A Predictive Coding View,”Frontiers in Human Neuroscience 8 (2014): 666, 图 1. 
doi:10.3389/fnhum.2014.00666 ° 


预测 编码 可 以 追溯 到 赫 尔 曼 . 冯 . 雍 姆 霍 效 ， 他 将 视觉 解释 为 无 意识 推 
理 ， 或 自 上 而 下 生成 视觉 信息 以 消除 噪声 ， 填 充 不 完整 的 信息 ， 并 解释 
视觉 场景 。 (LO) 例如 ， 一 个 熟人 的 照片 在 我 们 视网膜 里 是 有 单眼 深度 线 
索 的 ， 因 为 我 们 熟悉 那个 人 的 实际 大 小 ， 并 且 具 备 视网膜 中 大 小 如 何 随 
着 距离 变化 的 经 验 。 在 更 高 的 认 知 水 平 上 ， 和 钴 姆 斯 .麦克 莱 兰 和 大 卫 , 鲁 姆 
哈 特 发 现 ， 当 字母 位 于 单词 中 时 ， 被 试 者 能 够 比 在 没有 语 境 的 非 单词 环 
境 中 更 快 地 将 它们 识别 出 来 。 DLL] 他 们 的 并 行 处 理 模型 展现 出 了 类 似 的 
行为 ， 这 使 得 两 位 研究 人 员 相 信 ， 他 们 正在 沿 着 理解 信息 如 何在 我 们 的 
大 脑 中 呈现 的 正确 轨道 上 前 行 。 


深度 理解 大 脑 


2013 年 4 月 2 日 由 白宫 发 起 的 美国 “BRAIN 计 划 ”( 见 图 15-6) 的 目 
标 ， 是 创造 新 的 神经 技术 ， 以 加 速 我 们 对 “终极 信息 机 器 >， 即 大 脑 的 功 
能 和 障碍 的 进一步 理解 。 正 如 NIPS 会 议 将 许多 学 科 的 研究 人 员 育 集 在 一 
起 创建 有 学 习 能 力 的 机 器 一 样 ，“BRAIN 计 划 ” 正 在 将 工程 师 、 数 学 家 和 
物理 学 家 引入 神经 科学 领域 ， 以 改进 探测 大 脑 的 工具 。 随 着 我 们 对 大 
脑 ， 尤 其 是 关于 学 习 和 记忆 机 制 的 了 解 更 加 深入 ， 我 们 将 更 好 地 理解 大 
脑 功能 的 原理 。 


图 15-6 在 2013 年 4 月 2 日 白宫 宣布 “BRAIN 计 划 之 前 参加 会 议 的 相关 机 构 和 研究 ° 

MERE) 科 维 理 基 金 会 首席 科学 官 全 美 永 (Miyoung Chun) , 她 起 草 了 “BRAIN 计 划 ” 白 
书 ; 威廉 - 纽 索 姆 (William Newsome) ，NIH 关 于 “BRAIN 计 划 ” 咨询 委员 会 的 联合 主席 ; Am 
斯 .柯林斯 (Francis Collins) ，NIH 院 长 ， 杰 拉 德 . 鲁 宾 (Gerald Rubin) ， 霍 华 德 . 休 斯 医 学 研究 所 
珍妮 莉 娅 研究 园区 (Janelia Research Campus of the Howard Hughes Medical Institute) (£; PHA 
DEN (Cora Marret) ， 美 国 国 家 科学 基金 会 主任 ; 巴 拉 克 .奥巴马 (Barack Obama) ， 时 任 美 
国 总 统 ， 艾 米 : 古 特 曼 ( a Gutmann) ， 总 统 生 命 伦 理 委员 会 主席 ， 罗 伯 特 : 康 恩 (Robert 
Conn) ， 科 维 理 基金 会 主席 ， 阿 尔 提 : 普 拉巴 ey ^K (Arati Prabhakar) ，DARPA 主 任 ;， 艾 伦 :琼斯 
(Alan Tanes X 他 脑 科学 研究 所 所 长 ; 我 ， 索 尔 克 人 研究 所 。 图 片 来 源 ， 托 马 斯 : 卡 里 尔 
(Thomas Kalil) o 
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虽然 在 分 子 和 细胞 水 平 上 对 大 脑 有 了 深入 的 了 解 ， 但 我 们 还 没有 在 
更 噩 层次 上 对 大 脑 的 结构 有 一 个 同等 的 认 知 。 我 们 已 经 知道 ， 不 同类 型 
le i 进行 储存 ， 却 不 清楚 如 何 快速 检索 所 有 

分 散 的 信息 以 解决 复 洒 的 问题 ， 例如 我 们 能 够 通过 三 储 在 肥 层 个 同 部 位 
的 人 脸 的 图 像 ， 识 别 出 一 个 人 的 名 字 。 这 个 问题 与 大 脑 中 意识 的 起 源 密 
切 相关 。 


我 的 实验 宇 最 近 发 现 了 人 类 大 脑 在 睡眠 期 间 的 整体 活动 模式 ， 可 以 
让 我 们 了 解 大 脑 皮 层 中 广 沁 分 布 的 信息 是 如 何 联系 在 一 起 的 。 在 恢复 性 


慢 波 睡眠 和 快速 眼 动 (REM) 睡眠 之 间 的 睡眠 阶段 ， 高 度 同 步 的 被 称 
HEIRE” (sleep spindles) 的 时 空 振 沪 ， 主 导 着 皮层 的 活动 。 这 些 10 到 
14 赫 效 的 振荡 会 持续 几 秒 钟 ， 并 在 夜间 发 生 数 千 次 。 有 实验 证 据 表 明 ， 
在 我 们 睡觉 时 睡眠 锭 参与 了 记忆 的 巩固 。 通 过 来 自 人 脑 皮 层 的 记录 ， 沫 
K- (Lyle Muller) 、 西 德 尼 : 卡 什 (Sydney Cash) 、 乔 瓦 尼 . 皮 安 托 
JÆ (Giovanni Piantoni) 、 多 米 尼克 :科勒 (Dominik Koller) ` RE WIS 
格 伦 (Eric Halgren) 和 我 共同 发 现 ， 睡 眼 狂 在 皮层 中 是 一 种 无 处 不 在 
的 ， 扫 过 皮层 所 有 部 分 的 电 活动 的 循环 行 波 (图 15-7) 。 UA 我 们 称 它 
AL 129 3E OS ER” (Princess Leia Waves) ， 因 为 它们 看 起 来 跟 这 位 公主 
的 发 型 很 像 〈 图 15-8) 。 我 们 推测 ， 睡 眠 锭 可 能 是 皮层 将 白天 获得 的 新 
信息 ， 与 先前 分 布 在 皮层 中 的 记忆 相 结 合 的 一 种 方式 ， 加 强 了 它们 之 间 
的 长 距离 连接 。 这 是 “BRAIN 计 划 ” 推 动 的 系统 神经 科学 层次 的 众多 人 研究 
项 目 之 一 。 


4 
4 
/ 
/ 
/ 
/ 
/ 

Y 


l e f £ £ 4 £ A 


图 15-7 TE A JR X ipi Bc] FMRE T TTC ^ EEEREN, MACE FST Al 8x8 Wia 
录 下 来 的 图 像 。 睡 眠 钳 涉 及 记忆 巩固 。 (AL) 睡眠 锭 是 治 着 箭头 所 示 方 向 穿 过 皮层 侧 视图 的 循环 
行 波 ， 每 80 毫 秒 完 成 一 个 循环 。 这 一 过 程 在 夜间 会 重复 数 干 次 。《 右 ) 小 箭头 表示 循环 期 间 ， 在 
皮层 表面 64 个 记录 点 上 行 波 移 动 出 现 最 大 增加 量 的 方向 。 图 片 来 源 : L. Muller, G. Piantoni, D. 
Koller, S. S. Cash, E.Halgren and T. J.Sejnowski, "Rotating Waves during Human Sleep Spindles 


Organize Global Patterns of Activity during the Night"Supplementary 7, subject 3, TPF ° ÆR]: 
2B, HAI: 图 1。 


15-8 凯 莉 费 雪 (Carrie Fisher) 饰演 的 羔 娅 公主 ， 巩 固 了 对 1977 年 史诗 级 科 纪 电影 《星球 大 
战 》 的 记忆 。 她 的 发 萄 很 像 睡眠 锭 期 间 穿 过 皮层 的 循环 流 场 (对 比 图 15-7) 。 


大 脑 的 操作 系统 


数字 计算 机 和 神经 网 络 的 体系 结构 不 同 。 在 数字 计算 机 中 ， 内 存 和 
CPU 在 空间 上 是 分 开 的 ， 并 且 内 存 中 的 数据 必须 依照 顺序 移动 到 CPU 
中 。 在 神经 网 络 中 ， 处 理 过 程 在 内 存 中 并 行进 行 ， 这 就 消除 了 内 存 和 处 
理 器 之 间 的 数字 瓶颈 ， 并 且 人 允许 大 规模 并 行 处 理 ， 因 为 网 络 中 的 所 有 单 
元 都 在 同时 工作 。 神 经 网 络 中 的 软件 和 硬件 之 间 也 没有 区 别 。 学 习 是 通 
过 修改 硬件 来 进行 的 。 

从 20 世 纪 80 年 代 开 始 ， 当 计算 机 集群 被 装配 在 一 个 机 染 中 时 ， 数 字 
计算 机 已 经 变 得 可 以 大 规模 并 行 了 。 最 早 的 并 行 计 算 机 之 一 是 Connection 
Machine ， 由 丹 尼 : 希 利 斯 (Danny Hillis) 于 1985 年 设计 出 来 ， 并 由 
Thinking Machines 公 司 出 售 。 项 利 斯 是 一 位 工程 师 和 发 明 家 ,他 在 碾 省 


理工 学 院 接 受 培训 时 ， 人 们 已 经 清楚 地 认识 到 ， 要 让 人 工 智能 解决 非常 
复杂 的 现实 世界 问题 ， 就 需要 更 多 的 计算 能 力 。20 世 纪 90 年 代 ， 根 据 摩 
尔 定律 ， 计 算 机 芯片 上 的 晶体 管 数 量 持续 增加 。 我 们 有 可 能 将 许多 处 理 
单元 放置 在 同一 忌 片上 ， 许 多 芯片 放置 在 同一 电路 板 上 ， 许 多 电路 板 放 
置 在 同一 机 箱 中 ， 以 及 把 许多 机 箱 放 在 同一 个 房间 里 ， 结 果 是 ， 如 今 地 
球 上 最 快 的 计算 机 拥有 数 百 万 个 内 核 ， 并 且 每 秒 可 以 实现 数 千 万 亿 次 操 
作 。 百 亿 亿 次 级 的 计算 正在 以 每 秒 10 亿 乘 10 亿 次 操作 的 形式 出 现 。 


模拟 神经 网 络 可 以 最 大 限度 地 利用 这 种 大 规模 并 行 硬件 。 多 个 核 芯 
可 以 通过 编程 为 同一 个 网 络 模型 并 行 工作 ， 这 就 大 大 加 快 了 处 理 速度 ， 
但 也 会 导致 处 理 器 之 间 的 通信 延迟 。 为 了 减少 这 些 延迟 ， 一 些 公司 正在 
构建 专用 数字 协 处 理 器 ， 这 将 极 大 地 加 速 网 络 模拟 ， 使 语音 和 视觉 等 认 
知 任务 成 为 单一 强大 的 指令 。 使 用 深度 学 习 网 络 芯片 的 智能 手机 将 变 得 
更 加 智能 化 。 

数字 计算 机 具有 将 我 们 与 硬件 分 开 的 操作 系统 ( 方 框 15.1) 。 当 我 
们 在 笔记 本 电脑 上 运行 文字 处 理 程序 ， 或 在 手机 上 使 用 应 用 程序 时 ， 操 
作 系统 会 处 理 程序 的 细节 ， 例 如 将 按键 信息 放 到 内 存 的 哪个 位 置 ， 以 及 
如 何在 屏幕 上 显示 程序 输出 。 我 们 的 意识 在 大 脑 的 操作 系统 上 运行 着 应 
用 程序 ， 大 脑 操作 系统 将 信息 的 内 容 、 位 置 ， 以 及 存储 方法 与 意识 隔离 
开 来 。 我 们 并 不 知道 大 脑 是 如 何 储存 我 们 一 生 积累 的 大 量 经 验 的 ， 也 不 
知道 这 些 经 验 如 何 塑造 我 们 的 行为 。 虽 然 有 可 能 明确 地 解释 一 些 经 验 ， 
但 我 们 所 理解 的 这 部 分 只 是 冰山 一 角 。 我 们 的 大 脑 如 何 管理 这 些 信息 仍 
然 是 个 谜 。 如 果 我 们 能 够 弄 清楚 大 脑 的 操作 系统 是 如 何 工作 的 ， 就 可 以 
基于 相同 的 一 般 原 则 来 组 织 大 数据 。 相 应 地 ， 意 识 也 可 以 被 解释 为 运行 
在 大 脑 操作 系统 上 的 应 用 程序 。 


生物 学 与 计算 科学 


信息 爆炸 已 经 将 生物 学 转化 为 量化 科学 。 对 于 传统 生物 学 家 ， 除 了 
统计 学 入 门 诬 程 之 外 ， 通 常 只 需要 一 点 额外 的 数学 培训 就 能 够 分 析 他 们 


的 数据 ， 这 些 数据 很 少 ， 也 很 难 获得 。 在 2002 年 由 长 岛 冷 录 港 实验 室 举 
办 的 分 子 遗 传 学 研讨 会 上 ， 我 感觉 自己 就 像 一 条 离 了 水 的 鱼 ， 因 为 我 是 
唯一 一 个 做 计算 主题 演讲 的 人 。 在 我 前 面 演讲 的 是 分 子 遗 传 学 家 勒 罗 仇 : 
胡 德 (Leroy Hood) ， 他 在 加 州 理工 学 院 工作 了 多 年 。1987 年 我 在 加 州 
理工 学 院 休学 术 年 假 时 ， 惊 讶 地 发 现 胡 德 的 实验 室 多 得 几乎 占据 了 整 栋 
大 楼 。 后 来 ， 他 搬 到 了 西雅图 ， 并 在 2000 年 联合 创立 了 系统 生物 学 人 研究 
所 。 这 一 新 的 领域 由 在 试图 了 解 细 胞 内 所 有 分 子 相 互 作用 的 复杂 性 。 


15.1 
电子 计算 机 的 操作 系统 


操作 系统 对 在 计算 机 的 硬件 上 运行 的 程序 进行 控制 。 如 果 你 使 用 
的 是 个 人 电脑 (PC) ， 那 么 操作 系统 通常 是 Windows; 如 果 你 使 用 的 
征 iPhone， 用 的 则 是 iDS 系 统 ， 大 多 数 服务 大 运 行 的 都 定 某 种 版 本 的 
UNIX。 操 作 系统 在 程序 需要 时 分 配 内 存 ; 它 也 可 以 在 幕后 跟 路 程 
序 ， 使 用 称 为 “守护 程序 ”(daemons) 的 进程 在 后 台 运 行 ， 并 跟踪 打 
印 机 和 显示 器 等 设备 。 操 作 系 统 可 以 在 任何 硬件 上 工作 ， 使 得 你 的 应 
用 程序 可 以 移植 到 不 同 的 计算 机 上 。 


明 德 在 演讲 中 提 到 ， 有 一 天 他 心血 来 潮 ， 想 知道 为 什么 他 实验 室 工 
痪 系统 里 的 计算 机 科学 家 比 生物 学 家 要 多 。 他 推 叮 说 ， 原 因 在 于 生物 学 
已 成 为 一 门 信息 科学 ， 计 算 机 科学 家 对 如 何 分 析 信息 的 了 解 要 远 远 超过 
生物 学 家 ， 而 生物 学 家 已 被 现代 技术 ， 例 如 基因 测序 ， 所 产生 的 大 量 数 
据 所 淹没 。 胡 德 的 演讲 简直 是 为 我 做 了 最 好 的 铺 碌 ， 我 当时 的 演讲 题目 
征 关 于 信息 如 何在 大 脑 中 神经 元 之 间 的 突 触 上 储存 的 。 

今天 ， 系 统 生物 学 吸引 了 许多 计算 机 科学 家 和 物理 学 家 共同 分 析 和 
理解 DNA 测 序 产生 的 信息 ， 以 及 由 RNA 和 蛋白质 控 制 的 细胞 信号 。 一 个 
人 类 细胞 的 DNA 中 有 30 亿 个 碱 基 对 ， 含 有 细胞 生存 、 复 制 和 分 化 所 需 的 
所 有 信息 。 一 些 碱 基 对 坪 制 造 蛋 日 质 的 模板 ， 基 因 组 的 其 他 部 分 包含 一 
个 抽象 代码 ， 对 发 育 过 程 中 使 用 的 基因 进行 调 巾 ， 以 指导 身体 和 大 脑 的 
构建 。 大 脑 的 构建 有 可 能 是 宇宙 中 难度 最 高 的 构建 项 目 ， 它 是 由 DNA 中 
舱 入 的 算法 引导 的 ， 这 些 算 法 协调 了 大 脑 数 百 个 不 同 部 位 的 数 千 种 不 同 
类 型 神经 元 之 间 的 连接 。 


人 工 智能 能 拥有 媲美 人 类 大 脑 的 操作 系统 


由 基础 科学 研究 发 展 出 来 的 科技 ， 通 常 需要 50 年 才能 实现 商业 化 。 
20 世 纪 初 ， 由 相对 论 和 量子 理论 带 来 的 重大 发 现 ， 到 20 世 纪 的 后 半期 才 
推动 了 CD 播放 器 、GPS 以 及 电子 计算 机 的 诞生 。20 世 纪 50 年 代 发 现 的 
DNA 以 及 基因 序列 影响 了 当今 医药 和 综合 农业 领域 的 应 用 ， 这 些 应 用 到 
今天 仍 在 影响 经 济 的 发 展 。“BRAIN 计 划 ” 以 及 世界 上 其 他 大 脑 研究 项 目 
带 来 的 发 现 ， 会 启发 50 年 后 的 应 用 ， 这 些 应 用 现在 看 上 去 还 如 科幻 小 说 
一 般 遥 不 可 及 。 (13) 我 们 可 以 期 待 ， 到 2050 年 ， 人 工 智能 会 拥有 能 和 我 
们 大 脑 相 媲美 的 操作 系统 。 哪 些 公 司 、 哪 些 国家 会 掌握 这 种 科技 ， 取 决 
于 它们 现在 所 做 的 投资 和 所 下 的 赌注 。 
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F 何 足够 先进 的 技术 几乎 都 与 魔法 无 异 。” (Any sufficientlyadvanced technology is 


16 
生命 与 意识 


当 弗 朗 西 斯 ' 克 里 克 的 母亲 问 年 轻 的 克 里 克 他 想 探究 什么 样 的 科学 
问题 时 ， 他 告诉 她 ， 自 己 只 对 两 个 问题 感 兴趣 : 生命 的 奥秘 和 意识 的 
mp. Ll 克 里 克 显然 对 重要 的 事物 有 着 敏锐 的 感觉 ， 但 他 当时 可 能 没 
有 意识 到 这 些 问题 的 困难 程度 。 他 的 母亲 并 不 知道 ， 几 十 年 后 的 1953 
年 ， 她 的 儿子 和 和 詹姆斯: 沃 森 会 发 现 DNA 的 结构 ， 这 种 松散 的 线 状 体 最 
终 将 揭 开 生命 的 一 个 重要 谜团 。 但 克 里 克 (图 16-1) 并 不 满足 于 这 一 
成 就 。 

克 里 克 在 1977 年 加 入 索 尔 克 人 研究 所 后 ， 重 新 拾 起 长 久 以 来 对 意识 
的 兴趣 。 他 决定 关注 视觉 意识 (visual awareness) 问题 ， 因 为 人 们 已 经 
对 大 脑 的 视觉 功能 区 有 了 深入 的 了 解 ， 而 了 解 视觉 感知 (visual 
perception) 的 神经 基础 也 将 为 探索 其 他 方面 意识 的 神经 基础 铺 平 道 
路 。[2] 


9 MOSQ 


zu Ey 


图 16-1 弗朗西斯 . 克 里 克 和 他 的 妻子 奥迪 尔 、 女 儿 术 奎 琳 在 英国 剑桥 的 康 河上 划船 (拍摄 于 
1957 年 前 后 ) 。 图 片 来 源 ， 索 尔 克 生物 研究 所 。 


20 世 纪 80 年 代 ， 生 物 学 家 对 意识 研究 投入 的 热情 日 渐 消退 ， 但 这 
丝毫 没有 影响 克 里 克 。 视 觉 感 知 充满 了 难以 理解 的 幻想 和 谜团 ， 为 了 
解释 它们 在 解剖 学 和 生理 学 上 的 机 理 ， 克 里 克 推出 了 新 颖 的 “探照灯 假 
Wi" (searchlight hypothesis) 。 [S] 神经 节 细胞 从 视神经 投射 到 丘脑 ， 
后 者 又 将 脉冲 传递 到 视觉 皮层 。 但 为 什么 神经 节 细胞 不 能 直接 投射 到 
大 脑 皮层 呢 ? 克 里 克 指出 ， 从 皮层 到 丘脑 区 域 的 反馈 投射 就 像 探照灯 
一 样 ， 可 能 会 突出 显示 部 分 图 像 ， 以 供 进一步 处 理 。 


TUBE EVA 


JUN 


在 理解 意识 的 工作 中 ， 克 里 克 最 亲密 的 伙伴 是 加 州 理工 学 院 的 神 
经 科学 家 克里斯托弗 . 科 赫 ， 他 们 一 起 发 表 了 一 系列 探索 “意识 的 神经 关 
EX” (neural correlates of consciousness， 人 简称 NCC， 负 责 产生 意识 觉 知 
状态 的 大 脑 结构 和 神经 活动 ) 的 论文 。 (4) 对 于 视觉 意识 ， 这 意味 着 要 
发 现 大 脑 不 同 部 位 神经 元 的 放电 特性 与 视觉 感知 之 间 的 相关 性 。 殉 里 


克 和 科 赫 提出 了 假设 ， 认 为 我 们 并 不 知道 在 初级 视觉 皮层 中 发 生 了 什 
么 B] -这 是 大 脑 皮层 第 一 个 从 视网膜 接收 输入 的 区 域 ， 我 们 只 知道 
在 视觉 皮层 层级 结构 的 最 高 层 发 生 了 什么 ( 见 图 5-11) 。 这 种 假设 的 
可 能 性 来 自 对 双眼 竞争 的 研究 ， 即 对 两 只 眼睛 呈现 两 种 不 同 的 图 案 ， 
例如 对 一 只 眼睛 显示 垂直 条 纹 而 对 另 一 只 眼睛 显示 水 平 条 纹 ， 然而 ， 
我 们 看 到 的 并 非 是 两 幅 图 像 的 混合 图 像 一 事实 上， 视觉 感知 每 隔 几 
秒 就 会 在 不 同 图 像 之 间 突 然 发 生 翻转 。 初 级 视觉 皮层 中 对 每 只 眼睛 做 
出 反应 的 是 不 同 的 神经 元 ， 不 管 哪个 图 像 是 被 有 意识 地 感知 到 的 。 然 
而 ， 在 视觉 的 较 高 层级 上 ， 许 多 神经 元 只 对 感知 到 的 图 像 产生 响应 。 
因此 ， 仅 因 一 个 神经 元 对 感知 放电 ， 就 说 它 是 感知 的 神经 关联 ， 未 免 
太 过 草率 。 显 然 ， 在 分 布 于 视觉 层级 中 众多 互相 协调 工作 的 活跃 神经 
元 中 ， 我 们 只 知道 其 中 的 一 些 子 集 表征 了 什么 。 
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求 观察 一 系列 名 人 照片 。 植 入 大 脑 记忆 中 心 的 电极 可 以 记录 患者 对 照 
片 的 响应 脉冲 。 其 中 一 名 患者 大 脑 的 一 个 神经 元 对 几 幅 哈 莉 : 贝 瑞 的 照 
片 和 她 的 名 字 (图 16-2) 做 出 了 强烈 的 反应 ， 但 对 比尔 :克林顿 、 朱 者 
刀 : 罗 伯 芯 的 照片 或 其 他 名 人 的 名 字 却 无 动 于 衷 。 [6] 同时 ， 该 实验 也 
发 现 了 对 其 他 名 人 、 特 定 对 象 ， 以 及 悉尼 歌剧 院 等 建筑 物 能 做 出 反应 
的 神经 元 。 
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示 了 来 自 6 次 单独 试验 的 放电 脉冲 ( 蓝 色 标记 点 ) ， 以 及 平均 值 (直方 图 ) 
的 照片 和 她 的 名 字 引 发 了 一 波 脉 冲 ; (B) 而 其 他 女 演员 的 照片 和 她 们 的 名 字 却 没有 。 TER - D 
瑞 出 演 了 2004 年 的 动作 超级 英雄 电影 《 猫 女 》 (图 3) 。 图 片 来 源 : 


Singer， 


Cognitive Sciences 19, no. 6 (2015): 329-338, 图 1 ° 


由 加 州 大 学 洛杉矶 分 


A. D. Friederici and W. 
“Grounding Language Processing on Basic Neurophysiological Principles, 


”Trends in 


PERJA FLIE imma (Itzhak Fried) 和 克 里 斯 


托 弗 . 科 赫 领导 的 研究 小 组 发 现 的 神经 元 ， 在 50 年 前 首次 可 以 记录 猫 和 
猴子 大 脑 中 的 单个 神经 元 时 ， 就 已 经 被 预测 到 了 “。 研 究 人 员 认 为 ， 在 


大 脑 皮 层 视 觉 区 域 的 层级 结构 中 ， 神 经 元 的 层级 越 高 ， 啊 应 特性 就 越 


具体 。 很 有 可 能 的 情况 是 ， 顶 层 的 单个 神经 元 只 会 对 一 个 人 的 照片 产 


生 响 应 。 这 被 称 为 “祖母 细胞 假说 ”(grandmother cell hypothesis) , 7H 
母 细 胞 是 一 个 假想 的 脑 中 神经 元 ， 可 以 让 你 认 出 你 的 祖母 。 

更 为 戏剧 性 的 是 这 样 一 组 实验 ， 给 患者 展示 结合 了 两 个 熟 习 个 体 
照片 的 融合 图 片 ， 并 要 求 他 们 想象 其 中 一 个 人 (偏好 个 体 ) 的 形象 ， 
弱化 另 一 个 (竞争 个 体 ) ， 同 时 记录 仅 对 单一 熟人 照片 产生 响应 的 神 
经 元 的 活动 。 尽 管 视觉 刺激 没有 改变 ， 但 受 试 者 能 够 增加 表征 “偏好 个 
体 ” 神 经 元 的 放电 速率 ， 同 时 降低 表征 “竞争 个 体 ” 神 经 元 的 放电 速率 。 
然后 ， 实 验 者 通过 控制 融合 图 片 中 两 种 照片 的 比例 (根据 神经 元 的 放 
电 比 例 ) 来 闭合 环 路 ， 受 试 者 便 可 以 通过 想象 两 个 个 体面 孔 的 比例 EZ] 
来 控制 输入 。 该 实验 表明 ， 认 知 过 程 不 是 一 个 简单 的 被 动 过程 ， 而 是 
依赖 于 记忆 和 内 部 注意 力 控制 的 主动 参与 。 

尽管 有 了 这 样 令 人 惊讶 的 证 据 ， 祖 母 细胞 假说 仍然 不 太 可 能 完全 
解释 视觉 感知 的 过 程 。 根 据 该 假说 ， 当 细胞 处 于 活跃 状态 时 ， 你 会 感 
应 到 你 的 祖母 ， 所 以 它 不 应 该 被 任何 其 他 的 刺激 产生 响应 。 测 试 中 只 
有 几 百 张 照片 ， 所 以 我 们 的 确 不 知道 " 哈 莉 : 贝 瑞 细胞 * 有 多 么 强 的 选择 
性 。 其 次 ， 电 极 碰巧 记录 到 大 脑 中 唯一 的 哈 莉 : 贝 瑞 神 经 元 的 可 能 性 很 
低 ; 可 能 性 更 大 的 情况 是 ， 大 脑 中 有 成 千 上 万 个 这 样 的 细胞 ， 肯 定 还 
有 许多 对 其 他 著名 面孔 、 你 认识 的 人 、 你 能 识别 的 每 一 个 对 象 做 出 响 
应 的 神经 元 的 副本 。 尽 管 大 脑 中 有 数 十 亿 个 神经 元 ， 但 并 不 足以 给 人 
们 认识 的 每 一 个 对 象 和 名 称 分 配 一 个 大 型 的 专用 神经 元 群 组 。 最 后 ， 
响应 只 是 与 感官 刺激 相关 ， 但 并 不 一 定 表明 其 中 存在 着 因果 关系 。 神 
经 元 的 输出 ， 及 其 对 下 游行 为 的 影响 (参考 第 5 章 介绍 的 投射 场 ) 也 同 
样 重要 。 不 过 ， 响 应 的 选择 性 是 惊人 的 。 记 录 开 始 之 前 ， 病 人 被 要 求 
给 定 一 个 最 喜欢 的 名 人 ， 所 以 可 能 哈 莉 : 贝 瑞 在 病人 的 脑 中 被 过 度 表征 
了 o 

在 小 鼠 、 猴 子 和 人 类 中 同时 记录 数 以 百 计 的 皮层 神经 元 ， 为 神经 
元 如 何 共同 感知 和 决策 提供 了 另 一 种 理论 。 lel 在 猴子 的 记录 中 ， 刺 激 
和 依赖 任务 的 信号 广泛 分 布 于 大 量 神经 元 中 ， 每 一 个 神经 元 都 会 为 刺 


激 和 任务 细节 特征 的 不 同 组 合 做 出 响应 。 [9] 不 久之 后 ， 我 们 将 有 可 能 
记录 数 百 万 个 神经 元 并 操纵 它们 的 放电 速度 ， 区 分 不 同类 型 的 神经 元 
和 它们 彼此 相连 的 方式 。 这 可 能 会 引出 超越 祖母 细胞 的 理论 ， 让 我 们 
能 够 更 深入 地 理解 神经 元 群体 的 活动 如 何 引发 思考 、 情 绪 、 计 划 和 决 
策 。 当 然 ， 神 经 元 表征 面孔 和 对 象 的 方式 可 能 不 止 一 种 。 随 着 新 的 记 
录 技 术 的 出 现 ， 我 们 应 该 很 快 就 会 知道 答案 。 (101 


自 20 世 纪 80 年 代 以 来 ， 我 们 已 经 在 经 过 训练 的 含有 一 层 隐 藏 单元 
的 神经 网 络 模型 中 了 解 到 ， 并 且 最 近 在 深度 网 络 中 也 认识 到 ， 神 经 网 
络 中 每 个 输入 的 活动 模式 呈 高 度 分 散 性 分 布 ， 其 方式 在 性 质 上 类 似 于 
皮层 中 神经 元 群 组 的 各 种 响应 (图 9-2) 。 M 分 布 表征 可 以 用 来 识别 
相同 对 象 的 多 个 版 本 ， 而 且 针 对 同一 组 神经 元 ， 也 可 以 通过 对 它们 的 
输出 添加 不 同 的 权重 来 识别 许多 不 同 的 对 象 。 对 神经 网 络 中 的 单个 隐 
藏 单元 进行 分 析 ， 就 像 神经 生理 学 家 记录 视觉 皮层 中 的 神经 元 一 样 ， 
有 时 会 发 现 一 个 靠近 顶层 的 模拟 神经 元 对 其 中 一 个 对 象 产 生 了 特定 的 
偏好 。 但 是 ， 因 为 剩 下 的 神经 元 携带 了 表征 对 象 的 宛 余 信号 ， 所 以 当 
这 样 的 单元 被 切除 时 ， 神 经 网 络 的 性 能 并 不 会 发 生 明显 的 变化 。 神 经 
网 络 在 受到 损害 的 情况 下 仍 能 保持 稳健 的 性 能 ， 是 网 络 与 大 脑 本 身 的 
架构 与 数字 计算 机 的 架构 之 间 的 主要 区 别 。 


需要 多 少 皮层 神经 元 才能 区 分 例如 脸 部 之 类 的 许多 相似 对 象 呢 ? 
从 成 像 研究 中 ， 我 们 知道 人 脑 的 几 个 区 域 对 人 脸 能 够 做 出 反应 ， 有 些 
区 域 具有 高 度 的 选择 性 。 但 是 ， 在 这 些 区 域内 ， 任 何 单个 面孔 的 信息 
都 广泛 分 布 在 许多 神经 元 中 。 加 州 理工 学 院 的 草 颖 (Doris Tsao) 在 猴 
子 的 大 脑 皮 层 神 经 元 中 ， 记 录 到 对 面部 的 选择 性 响应 ， 并 表明 可 以 通 
过 结合 来 自 200 个 面部 细胞 (所 有 面部 选择 性 神经 元 的 相对 较 小 的 子 
集 ) 的 输入 来 对 面部 特征 进行 重建 。 [12] 


锡 寓 感知 的 时 机 


视觉 意识 的 另 一 方面 ， 是 大 脑 努 力 记 录 发 生 在 特定 时 间 的 事件 ， 
例如 闪光。 视觉 皮层 中 神经 元 对 闪光 视觉 刺激 产生 响应 的 时 间 延 迟 从 
25 宫 秒 到 100 坚 秒 不 等 ， 这 些 延 迟 通常 发 生 在 皮层 同一 区 域内 。 尽 管 这 
样 ， 我 们 仍 可 以 确定 时 间 差 在 40 晕 秒 内 发 生 的 两 次 闪光 的 次 序 ， 以 及 
时 间 差 小 于 10 毫 秒 的 两 次 声音 的 次 序 。 让 问题 更 加 复杂 的 是 ， 视 网 膜 
中 的 处 理 也 需要 一 定 的 了 时间。 这 一 时 间 并 不 是 固定 的 ， 而 是 取决 于 闪 
光 的 强度 ， 所 以 即便 微弱 内 光 和 强烈 内 光 同 时 发 生 ， 微 弱 内 光 中 来 自 
视网膜 的 首 个 脉冲 的 到 达 时 间 与 强烈 内 光 相 比 ， 也 会 有 一 个 延迟 。 这 
瓯 引出 了 一 个 问题 ， 即 为 什么 视觉 感知 似乎 具有 一 致 性 ， 虽 然 从 整个 
皮层 活动 的 时 间 和 空间 分 布 模式 来 看 并 不 明显 。 

当 我 们 进行 跨 模 态 (cross-modal) 比较 时 ， 同 时 性 问题 变 得 更 加 令 
人 困惑 。 你 看 到 一 个 人 在 砍 树 ， 假 设 你 离 得 足够 近 ， 即 使 声速 比 光 速 
慢 得 多 ， 你 也 可 以 同时 看 到 并 昕 到 每 次 佐 头 对 树木 的 砍 击 。 而 且 随 着 
与 树 的 距离 不 断 增加 ， 同 时 性 的 幻觉 仍然 维持 着 ， 3] 直到 视觉 和 听 
觉 信 号 到 达 你 的 大 脑 的 时 间 差 大 于 80 宫 秒 时 ， 我 们 束 不 再 认为 声音 与 
砍 击 的 动作 同时 发 生 (此 时 的 距离 大 约 为 100 英 尺 ) e 

探索 与 时 间 相 天 的 视觉 行为 的 研究 人 员 发 现 了 另 一 种 被 称 为 “内 区 
一 滞后 效应 ” (flash-lag effect) 的 现象 。 该 现象 可 以 表现 为 飞 过 头顶 的 
飞机 闪烁 的 尾灯 和 机 尾 看 起 来 不 太一 人 致 一 一 内 光 的 位 置 似乎 落后 于 机 
尾 。 男 一 种 常见 的 现象 是 在 足球 比赛 中 ， 当 一 名 跪 动 中 的 运动 员 看 起 
来 像 在 足球 CAE) 前 面 时 ， 这 可 能 会 引起 助理 裁判 员 的 越位 判罚 
一 这 名 助理 裁判 员 并 未 做 出 幻觉 补偿 [到 | 。 这 一 现象 可 以 在 实验 室 
中 通过 用 视觉 刺激 (如 图 16-3 所 示 ) 来 进行 研究 。 在 内 光 混 后 效应 
中 ， 闪 光 和 位 于 同一 位 置 的 移动 物体 之 间 似 乎 发 生 了 错位 。 

对 这 种 现象 存在 一 种 主流 的 解释 一 -在 直觉 上 更 说 得 通 ， 而 且 有 
一 些 来 和 目 大 脑 实 验 记录 的 证 据 一 一 是 大 脑 预 测 了 运动 点 将 在 短 时 间 之 
后 出 现在 哪个 位 置 。 但 是 感知 实验 已 经 表明 ， 这 并 不 能 解释 办 光 浪 后 
效应 ， 因 为 内 光 时 间 引 起 的 感知 取决 于 内 光 后 80 上 毫秒 内 发 生 的 事件 ， 


而 不 是 闪光 之 前 发 生 的 事件 (先前 发 生 的 事 会 被 大 脑 用 来 做 出 预 
WU) o (LS) 这 种 对 闪光 滞后 效应 的 解释 ， 意 味 着 大 脑 是 “后 发 性 的 ”而 
非 “预测 性 的 "， 也 就 是 说 ， 大 脑 不 断 修改 历史 ， 使 有 意识 的 现在 与 未 来 
保持 一 致 。 这 是 我 们 的 大 脑 如 何 基于 嘲 杂 和 不 完整 的 数据 产生 似 是 而 
非 感觉 的 一 个 例子 ， 这 一 现象 也 经 过 魔术 师 的 探索 ， 被 用 于 魔术 表演 
中 [16] 


图 16-3 闪光 滞后 效应 。 (ER) 一 个 圆 环 从 左 向 右 移动 CR) 。 当 它 
光 会 短暂 内 炬 (黄色 ) 。 (下 图 ) 被 试 者 报告 ， 在 内 光 时 圆 环 似乎 偏 移 
大 卫 : 伊 格 尔 曼 。 


通过 视野 的 中 心 时 ， 灯 
到 了 石 人 出。 图 片 来 源 : 


ADR AD AaB 


大 脑 成 像 可 以 在 我 们 感知 事物 时 为 我 们 提供 大 脑 活动 的 全 局 图 。 
根据 实验 证 据 ， 人 研究 人 员 提 出 了 一 个 非 浓 有 吸引 力 的 假设 ， 即 当 皮 层 


前 部 (这 部 分 对 计划 和 制定 决策 非常 重要 ) 的 大 脑 活 动 达到 阐 值 水 
平 ， 并 开启 反馈 回路 时 ， 我 们 才 会 有 意识 地 注意 到 某 些 事情 。 M 虽 
然 具 有 一 定 的 启发 性 ， 但 这 些 观察 结果 并 不 具有 说 服 力 ， 因 为 它们 并 
不 构成 因果 关系 ， 而 只 是 表明 了 相关 性 。 如 果 “ 意 识 的 神经 相关 "是 意识 
状态 的 原因 ， 那 么 应 该 可 以 通过 改变 “意识 的 神经 相关 ”来 改变 意识 状 
态 。 曹 颖 在 她 2017 年 的 实验 中 证 实 了 这 一 点 ; 通过 刺激 猴子 的 视觉 皮 
层 中 的 脸 部 识别 功能 区 ， 她 能 够 干扰 它们 对 脸 部 的 辨别 能 力 。 [18] y 
对 人 类 进行 类 似 的 实验 时 ， 被 试 者 报告 说 ， 脸 部 看 起 来 好 像 正 在 融 
化 。[19] 


最 近 ， 诸 如 光 遗 传 学 20] 等 新 技术 已 经 能 够 被 用 于 选择 性 地 操纵 
神经 元 的 活动 ， 从 而 对 NCC 的 因果 关系 进行 测试 。 如 果 认 知 状态 与 高 
度 分 散 的 活动 模式 相对 应 ， 这 样 的 测试 难度 可 能 会 很 大 ， 但 原则 上 ， 
这 种 方法 可 以 揭示 意识 中 的 感知 和 其 他 特征 是 如 何 形成 的 。[21] 


A on Te RY LEE 


视觉 搜索 任务 依赖 于 自 下 而 上 的 感官 处 理 ， 以 及 自 上 而 下 由 期 望 
驱动 的 注意 力 处 理 (图 16-4A) 。 这 两 种 类 型 的 处 理 在 大 脑 中 相互 交织 
着 进行 ， 难 以 区 分 。 但 最 近 ， 人 们 开发 了 一 种 新 颖 的 搜索 任务 来 尝试 
将 它们 分 开 。 [22] 参与 者 坐 在 空白 的 屏幕 前 ， 他 们 的 任务 是 用 目光 扫 
视屏 幕 ， 找 到 一 个 隐藏 目标 的 位 置 。 当 他 们 的 目光 停留 在 目标 附近 
时 ， 会 听 到 奖励 音 。 隐 藏 目 标的 位 置 在 每 次 试验 中 都 会 发 生变 化 ， 并 
且 服 从 高 斯 分 布 〈 一 种 钟 形 曲线 ， 由 其 峰值 和 宽度 定义 ) ， 但 在 一 个 
试验 环节 内 保持 不 变 ， 然 而 参与 者 并 不 了 解 这 一 信息 (图 16-4D) 。 

在 试验 环节 开始 时 ， 参 与 者 并 没有 任何 先 验 知识 来 指导 他 们 的 搜 
索 。 一 旦 获得 奖励 ， 他 们 就 可 以 使 用 该 反馈 来 协助 下 一 次 试验 。 随 着 
试验 的 进行 ， 参 与 者 通过 制定 隐藏 目标 分 布 的 预期 ， 来 指导 未 来 的 搜 


索 ， 以 提高 成 功率 。 经 过 大 约 十 几 次 的 试验 后 ， 参 与 者 的 视觉 注意 力 
缩小 到 了 目标 出 现 概 率 高 的 区 域 。 图 16-4D 显 示 了 在 所 有 参与 者 身上 出 
现 的 这 种 效应 的 特征 。 随 着 实验 不 断 推进 ， 搜 索 区 域 的 范围 开始 大 幅 
缩小 。 令 人 惊讶 的 是 ， 尽 管 被 试 者 在 几 次 试验 后 的 第 一 次 扫 视 总 是 能 
到 达 隐 藏 目 标 分 布 的 中 心 ， 但 他 们 中 许多 人 并 没有 办 法 换 述 出 是 如 何 
做 到 这 一 点 的 。 
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图 16-4 学 习 朝 哪里 看 。 (A) 有 经 验 的 行人 事先 知道 在 街道 场景 中 寻找 路 标 、 汽 车 和 人 行道 的 
we; B) 在 一 片 草地 上 疯 食 的 鸭子 ， (C) 屏幕 的 表征 图 像 与 试验 期 间 学 习 的 隐藏 目标 分 
布 区 域 进行 的 玛 加 ， 以 及 来 自 参 与 者 M 的 三 次 试验 的 目光 轨迹 样本 。 每 个 试验 中 第 一 次 目光 停 
留 的 区 域 用 黑色 记号 标记 。 最 终 获得 奖励 的 注视 位 置 以 带 阴 影 的 灰色 点 进行 标记 。 (D) 对 目 
光 注 视 过 的 屏幕 区 域 的 采样 ， 从 在 早期 试验 中 忆 布 了 整个 屏幕 〈 浅 灰色 圆圈 ; 前 五 个 试验 ) ， 
缩小 到 接近 高 斯 整数 分 布 大 小 和 位 置 的 区 域 [正方 形 ， 颜 色 与 后 面试 验 C 中 给 出 的 概率 成 比例 
(红色 圆圈 ;试验 32-39) | 。 图 片 来 源 : L. Chukoskie, J. Snider, M. C. Mozer, R. J. Krauzlis, 
and T. J.Sejnowski, “Learning Where to Look for a Hidden Target”， 图 1。 


这 些 实验 表明 ， 大 脑 无 意识 的 控制 是 由 经 验 引 导 的 。 通 过 消除 视 
觉 输 入 ， 可 以 独立 地 研究 无 意识 过 程 。 这 项 搜索 任务 涉及 的 大 脑 区 域 
包括 视觉 皮层 和 上 后 ， 它 们 分 别 控制 着 视野 中 对 象 的 立体 形 摇 分 布 ， 
以 及 分 别 将 视线 指向 视觉 目标 ， 与 眼 动 系统 的 其 他 部 分 紧密 合作 。 学 
习 过 程 也 涉及 基底 神经 节 ， 这 是 疹 椎 动物 大 脑 的 一 个 重要 组 成 部 分 ， 
能 通过 强化 学 习 来 学 习 按 顺序 发 生 的 动作 。 023] 预期 和 收 到 的 奖励 之 
间 的 差异 ， 表 现 为 中 脑 部 位 的 多 巴 胺 神经 元 放电 频率 的 瞬时 增加 ， 从 
而 能 够 调节 突 触 可 塑性 ， 并 在 无 意识 层面 影响 决策 和 计划 的 制定 (已 
在 第 10 章 中 讨论 过 ) 。 


创造 意识 比 理解 意识 更 容易 


在 去 世 之 前 ， 弗 朗 西 斯 : 克 里 克 还 邀请 我 到 他 家 中 讨论 屏 状 体 
(claustrum) ， 这 个 皮层 下 的 神秘 细胞 薄 层 接收 来 自 许 多 皮层 区 域 的 
投射 ， 然 后 再 反问 投射 回去 。 尺 管 克 里 克 当 时 已 身 患 绝症 ， 但 仍然 专 
注 于 完成 他 的 最 后 一 篇 论文 ， 即 屏 状 体 因 其 中 心地 位 而 负责 意识 统一 
的 假说 。 只 有 少数 研究 人 员 曾 研究 过 屏 状 体 ， 他 几乎 给 他 们 中 的 每 个 
人 都 打 过 电话 ， 寻 求 进一步 的 信息 。 这 次 拜访 是 我 最 后 一 次 见 到 他 。 
弗朗西斯 于 2004 年 7 月 28 日 去 世 时 ， 仍 然 在 努力 撰写 他 最 后 一 篇 论文 
[24] 的 手稿 ， 试 图 完成 他 对 意识 起 源 的 研究 。 


在 他 和 詹姆斯 : 沃 森 于 1953 年 发 现 DNA 结 构 的 50 年 后 ， 人 类 基因 组 
测序 的 项 目 完成 了 。 克 里 克 告 诉 我 ， 他 从 来 没有 想 过 人 类 能 够 完成 这 


一 壮举 。50 年 后 ， 我 们 距离 探 清 意识 问题 还 有 多 远 呢 ? 届时 ， 我 们 将 
拥有 与 我 们 互动 的 机 右 ， 残 像 我 们 现在 通过 语音 、 手 势 和 面部 表情 与 
他 人 互动 一 样 。 创 造 意识 要 比 完全 理解 它 来 得 容易 。 

我 怀疑 ， 我们 是 否 可 以 通过 首先 了 解 无 意识 的 处 理 过 程 一 一 我 们 
看 到 、 听 到 和 行动 时 认为 理所当然 的 一 切 一 一 来 加 快 进度 。 我 们 已 经 
在 理解 激励 系统 方面 取得 了 进展 (激励 系统 对 我 们 如 何 做 决定 产生 了 
强烈 的 影响 ) ; 还 有 注意 力 系统 (这 些 系统 有 助 于 指导 我 们 在 现实 世 
界 中 搜寻 信息 ) 。 随 着 对 管理 感知 、 决 策 和 规划 的 大 脑 机 制 的 深入 了 
解 ， 理 解 意识 这 个 问题 可 能 会 像 《 爱 丽 丝 漫游 奇 境 记 》 中 的 深 那 猫 一 
样 消失 ， 只 留 下 一 个 大 大 的 笑容 。 [201 
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17 
进化 的 力量 


研究 生命 起 源 的 莱 斯 利 : 奥 格 尔 (Leslie Orgel， 图 17-1， 右 ) 是 一 
位 毕业 于 牛津 大 学 的 化 学 家 ， 他 是 我 在 索 尔 克 研 究 所 多 年 的 同事 ， 也 
是 我 见 过 的 最 聪明 的 科学 家 之 一 。 每 周 五 的 教师 午餐 时 与 他 的 讨论 总 
是 让 我 意犹未尽 。 生 命 的 起 源 可 以 追溯 到 数 十 亿 年 前 ， 众 所 周知 ， 那 
时 的 地 球 与 今天 大 不 相同 ， 环 境 条件 十 分 苛刻 ， 大 气 中 的 氧气 很 少 ， 
并 不 适宜 生命 存活 。 古 细菌 早 于 细菌 出 现在 地 球 上 ， 但 在 古 细菌 之 前 
出 现 的 又 是 什么 呢 ? 我 们 现在 已 经 知道 ，DNA 普 遍 存在 于 所 有 细胞 
中 ， 那 在 DNA 形 成 之 前 就 存在 的 遗传 物质 又 是 什么 呢 ? 1968 年 ， 莱 斯 
利 : 奥 格 尔 和 弗朗西斯 : 克 里 克 推测 ， 由 细胞 中 的 DNA 衍 生 而 来 的 RNA 可 
能 是 DNA 的 前 身 ， 但 这 就 要 求 RNA 能 够 自我 复制 。 关 于 这 一 推测 的 证 
据 ， 来 自 可 以 催化 RNA 反 应 的 基于 RNA 酶 的 核 酶 [1 (ribozyme) 。 今 
天 该 领域 的 大 多 数 研究 人 员 都 认为 ， 所 有 生命 都 来 自 早期 的 *RNA 世 
界 ”， 这 一 点 是 完全 有 可 能 的 。 但 RNA 又 是 从 哪里 来 的 呢 ? 遗憾 的 是 ， 
我 们 并 没有 什么 证 据 可 以 继续 追溯 下 去 。 


图 17-1 1992 年 ， 索 尔 克 研究 所 的 弗朗西斯 - 克 里 克 (A) MRKA RR (A) 分 别 在 意识 的 


起 源 和 生命 的 起 源 领域 进行 着 开拓 性 的 研究 。 图 片 来 源 : 索 尔 克 研 究 所 。 


大 目 然 比 我 们 聪明 


一 直 以 来 ， 人 们 普遍 接受 的 所 谓 “ 真 理 ”， 总 是 不 断 地 被 惊人 的 发 现 
所 颠覆 。 我 们 抬 起 头 ， 看 到 太阳 在 围绕 地 球 转动 ， 但 实际 上 有 是 地 球 在 
绕 着 太阳 转 。 进 化 论 让 我 们 认 清 了 人 类 的 发 展 历 程 ， 尽 管 到 了 今天 ， 
很 多 人 仍然 难以 接受 这 一 理论 。 许 多 年 后 ， 我 们 的 后 代 将 回顾 我 们 生 
活 的 这 个 时 代 ， 并 认为 我 们 对 稚 能 的 直觉 ， 是 过 于 简化 了 的 ， 这 种 直 
觉 阻碍 了 人 工 智能 后 续 50 年 的 进步 。 正 如 奥 格 尔 的 第 二 定律 所 述 ， 进 
化 比 你 聪明 。 


我 们 的 意识 觉 知 只 是 冰山 一 角 ， 我 们 大 脑 的 大 部 分 活动 依然 神秘 
RM, JIH Re 我 们 用 “注意 力 ” 和 “意图 ”这 些 词 来 描述 我 们 


的 行为 ， 但 这 些 都 是 含糊 的 概念 ， 隐 藏 了 大 脑 活 动 过 程 的 内 在 复杂 
性 。 基 于 直觉 大 众 心 理学 的 人 工 智能 的 发 展 迟 迟 得 不 到 令 人 满意 的 成 
革 。 我 们 的 眼睛 能 看 到 东西 ， 但 没 人 知道 其 育 后 的 原因 。" 我 思 故 我 
在 ”， 但 思考 育 后 的 机 制 仍 是 一 个 谜 。 大 目 然 回 我 们 揭示 大 脑 如 何 运 
转 ， 并 不 会 给 我 们 带 来 生存 上 的 优势 。 奥 格 尔 的 第 二 定律 仍然 成 立 。 
[2] 


正如 第 2 章 所 指出 的 那样 ， 我 们 拥有 高 度 发 达 的 视觉 系统 ， 但 这 并 
不 能 让 我 们 成 为 视觉 领域 的 专家 。 [3] 许多 人 甚至 都 没有 意识 到 ， 我 们 
的 眼 部 存在 一 个 眼中 央 凹 ， 其 能 提供 的 清晰 视角 只 有 1 度 的 弧度 ， 相 当 
于 以 一 臂 为 半径 ， 拇 指 长度 为 弧 长 所 对 应 的 角度 ， 另 外 ， 我 们 在 眼中 
央 凹 之 外 什么 都 看 不 到 ， 几 乎 相当 于 法 定 言 人 [天 。 我 曾经 向 我 的 母亲 
指出 这 一 点 ， 她 说 她 不 相信 我 ， 因 为 她 前 后 左右 都 看 得 很 清楚 BT 
我 们 可 以 迅速 重新 定位 视觉 目标 ， 所 以 产生 了 一 种 在 目光 所 及 之 处 都 
能 看 得 很 清楚 的 错觉 。 你 知道 当 你 凝视 一 个 目标 时 ， 目 光 会 以 每 秒 三 
次 的 频率 在 目标 上 游 移 吗 ? 余 光 (peripheral vision) 可 能 具有 较 低 的 空 
间 分 辨 率 ， 但 对 亮度 和 运动 的 变化 非常 敏感 。 在 视觉 皮层 中 ， 与 识别 
目标 的 主要 回路 相 区 别 的 另 一 个 主要 回路 ， 就 负责 识别 视线 在 空间 中 
的 移动 。 

当 计算 机 视觉 领域 的 先驱 开始 设计 视觉 功能 时 ， 他 们 的 目标 是 从 
图 像 中 创建 出 一 个 完整 的 世界 内 部 模型 ， 而 这 个 目标 已 经 被 证 明 是 难 
以 实现 的 。 但 是 ， 一 个 完整 而 准确 的 模型 对 于 大 多 数 实际 目的 来 说 可 
能 是 不 必要 的 ， 而 且 考 虑 到 目前 的 摄像 机 取样 率 很 低 ， 这 似乎 更 不 可 
能 实现 。 

根据 心理 物理 学 、 生 理学 和 解剖 学 的 证 据 ， 帕 特 里 夏 . 丘 奇 兰 德 、 
神经 心理 学 家 拉 马 钱 德 兰 (V.S. Ramachandran) 和 我 得 出 的 结论 是 ， 
大 脑 只 表征 世界 上 有 限 的 一 部 分 目标 ， 即 执行 手头 任务 所 需要 的 那 部 
分 。[3] 这 也 使 得 强化 学 习 更 容易 减少 所 需要 的 、 可 能 有 助 于 获得 奖励 
的 感官 输入 的 数量 。 视 觉 的 明显 模块 化 (与 其 他 感官 处 理 流 相 比 ， 视 


觉 信息 有 更 高 的 分 离 度 ) 也 是 一 种 错觉 。 视 觉 系统 集成 了 来 自 其 他 渠 
道 的 信息 ， 包 括 来 目 奖 励 系统 的 指示 场景 中 目标 价值 的 信号 。 机 动 系 
统 通过 积极 地 重新 定位 传 感 万 来 寻找 信息 ， 例 如 移动 目光 ， 以 及 在 某 
些 物种 中 ， 通 过 移动 耳 示 来 收集 可 能 导致 奖励 行为 的 信息 。 


大 脑 通过 对 环境 的 逐步 适应 而 发 生 进 化 ， 大 自然 无 法 从 零 开 始 ， 

而 必须 通过 修改 各 个 零 部 件 来 维持 现 有 物种 的 生存 。 约 其 : 奥 尔 曼 
(John Allman) 在 他 的 著作 《进化 脑 》 (Evolving Brains ) [6] 一 书 中 
兰 述 了 在 城市 人 类 尺度 上 逐渐 发 生 的 进化 ， 并 回顾 了 一 次 他 去 圣 迭 龙 
老 电厂 锅炉 房 的 经 历 。 他 注意 到 ， 在 一 组 真空 管 券 边 有 一 排 排 复杂 的 
小 型 气 送 管 ， 旁 边 是 不 同年 代 的 计算 机 控制 系统 。 由 于 该 电厂 需要 连 
续 供 电 ， 因 此 无 法 在 每 次 对 技术 进行 更 新 换代 时 ， 都 直接 关闭 旧 系 统 
并 将 其 改装 为 新 系统 。 于 是 旧 的 控制 系统 就 被 留 在 了 原 位 ， 而 新 的 控 
制 系统 被 集成 到 了 其 中 。 同 样 ， 随 着 大 脑 的 不 断 变化 ， 大 自然 并 不 能 
抛弃 日 的 大 脑 系统 ， 而 是 根据 当前 的 发 展 计划 进行 调整 ， 偶 尔 也 会 增 
加 一 层 新 的 控制 。 基 因 复 制 ， 是 引入 能 够 变异 出 新 功能 的 基因 副本 的 
最 佳 途 径 。 全 基因 组 复制 的 情况 曾经 也 发 生 过 ， 而 这 可 能 会 导致 一 个 
全 狐 物种 的 诞生 。 


认 知 科学 的 兴起 


20 世 纪 30 年 代 ， 研 究 学 习 行为 的 心理 学 家 把 行为 看 作 将 感官 输入 
转化 为 运动 输出 的 过 程 ， 并 自称 为 “行为 主义 者 *。 关 联 学 习 是 行为 主义 
的 研究 重点 ， 许 多 学 习 规 律 在 通过 用 不 同 的 奖励 机 制 训练 动物 时 被 陆 
续 发 现 。 哈 佛 大 学 的 B. F. 斯 金 纳 是 这 一 领域 的 领导 者 ， 他 撰写 了 几 本 
畅销 书籍 来 解释 他 的 发 现 对 社会 造成 的 影响 。 [2] 当时 有 关 行为 主义 的 
大 众 出 版 物 非常 受 欢迎 。 

1971 年 ， 著 名 语言 学 家 诺 姆 : 乔 姆 斯 基 (图 17-2) 在 《纽约 书评 》 
(图 17-3) 上 发 表 了 一 篇 全 面 抒 击 行为 主义 的 文章 ， 矛 头 直 指 斯 金 


oy o [8] 下 面 是 他 的 论点 中 关于 语言 方面 的 一 段 摘录 : 


图 17.2 1977 年 的 诺 姆 : 乔 姆 斯 基 。 他 于 1971 年 在 《纽约 书评 》 上 撰写 了 文章 《针对 斯 金 纳 的 驳 
不 》。 乔 姆 斯 基 的 论文 对 一 代 认 知心 理学 家 产生 了 深远 的 影响 。 他 们 开始 将 符号 处 理 作为 认 知 
的 概念 框架 ， 而 大 脑 发 育 和 学 习 在 认 知 和 智力 中 的 重要 作用 则 在 他 们 的 眼中 大 打折 扣 。 图 片 来 
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图 17-3 诸 姆 : 乔 姆 斯 基于 1971 年 在 《纽约 书评 》 中 择 击 斯 金 纳 的 标题 。 乔 姆 斯 基 的 文章 影响 了 
一 代 科 学 家 ， 诱 导 他 们 放弃 了 对 行为 的 学 习 ， 并 采用 符号 处 理 作为 解释 认 知 的 方式 。 但 使 用 符 
号 方法 ， 人 工 智能 从 未 出 现 能 够 达到 认 知 水 平 的 表现 。 斯 金 纳 在 强化 学 习 领域 引领 着 正确 的 方 
a p ls a 当今 最 引 人 注 目的 AI 应 用 是 基于 学 习 ， 而 非 逻 辑 。 图 片 来 
Un: 纽约 书评 》。 


把 一 些 我 从 来 没有 听 过 或 说 过 的 英语 句子 ， 而 不 是 中 文句 于 说 
成 属于 我 的 “语录 ”( 只 因为 我 说 前 者 的 “概率 ”更 大 ) ， 这 是 什么 意 
思 ? 斯 金 纳 主义 在 讨论 中 涉及 这 一 点 时 ,一直 诉 诸 “ 相 似 性 ”或 “ 泛 
化 "， 但 始终 没有 精确 地 描述 新 句子 与 熟悉 的 例子 如 何 “ 相 似 *”， 或 从 
例子 中 如 何 “ 泛 化 ”的 方式 。 这 种 失败 的 原因 很 简单 。 束 目前 所 了 解 
的 信息 而 言 ， 相 关 属 性 只 能 用 描述 有 机 体内 部 假定 状态 的 抽象 理论 

(例如 语法 ) 来 表达 ， 而 这 种 理论 被 从 斯 金 纳 的 “科学 理论 ”中 先 验 
地 排除 了 “。 由 此 导致 的 直接 后 条 融 是 ， 只 要 讨论 涉及 事实 世界 ， 期 
金 纳 主 义 就 必然 会 陷入 神秘 主义 (不 能 解释 的 “相似 性 ”和 无 法 描述 
的 “ 泛 化 ") 。 尽 管 在 语言 中 情况 可 能 更 为 清楚 ， 但 没有 理由 认为 ， 
人 类 行为 的 其 他 方面 也 会 落 入 斯 金 纳 用 移 验 限制 了 的 “科学 ?体系 之 
中 。 [9] 


以 今天 的 角度 ， 我 们 可 以 看 到 乔 姆 斯 基 明 日 了 问题 的 关键 ， 但 他 
并 不 了 解 学 习 的 力量 。 深 度 学 习 已 经 向 我 们 展示 了 ， 像 大 脑 本 身 的 神 
经 网 络 那样 ， 模 型 神经 网 络 能 够 做 到 被 乔 姆 斯 基 解 释 为 “神秘 主义 ”的 那 
种 “ 沁 化 >， 并 且 可 以 经 过 训练 ， 选 择 性 地 识别 多 国语 言 并 进行 翻译 ， 为 
图 像 生成 在 语法 上 无 可 挑剔 的 标题 。 最 具 讽 刺 意 味 的 是 ， 机 器 学 习 已 
经 解决 了 自动 解析 语句 的 问题 ， 尽 管 计算 语言 学 家 做 出 了 艰 否 的 努 
力 ， 但 乔 姆 斯 基 的 句法 “抽象 理论 "从 来 没有 解答 过 这 个 问题 。 当 与 斯 金 
纳 开 创 的 强化 学 习 结合 起 来 时 ， 机 器 学 习 就 可 以 解决 需要 做 出 一 系列 
选择 以 实现 目标 的 复杂 问题 。 这 是 解决 问题 的 实质 ， 也 是 智能 的 基 
fili ° 


乔 姆 斯 基 的 文章 充满 了 如 视 ， 其 影响 也 远 远 超过 了 对 斯 金 纳 的 择 
击 : 它 挑 战 了 ， 甚 至 腹 不 了 将 学 习作 为 理解 认 知 的 一 种 方式 。 这 在 20 
世纪 70 年 代 对 认 知 心理 学 产生 了 决定 性 的 影响 。 乔 姆 斯 基 所 持 观 点 的 
核心 在 于 ， 根 本 无 法 想象 《至 少 对 乔 姆 斯 基 而 言 ) 关联 式 学习 能 够 产 
生 一 种 像 语言 那样 复杂 的 认 知 行为 。 但 请 注意 ， 这 个 论点 是 基于 无 知 
一 一 仅 因为 世界 顶尖 的 语言 学 家 说 他 无 法 想象 茶 件 事 ， 并 不 能 人 否定 这 
件 事 发 生 。 但 乔 姆 斯 基 的 言辞 与 70 年 代 的 时 代 精 神 产生 了 共鸣 ， 因 此 


顺 受 退兵 。 到 了 20 世 纪 80 年 代 ， 对 认 知 进行 符号 处 理 已 成 为 主流 方 
法 ， 并 为 一 个 名 为 “ 认 知 科学 ”的 新 领域 打下 了 基础 一 一 认 知 科学 是 认 知 
心理 学 、 语 言 学 、 斩 学 和 计算 机 科学 的 混合 体 。 神 经 科学 则 像 是 认 知 
科学 的 小 兄弟 ， 在 20 世 纪 90 年 代 认 知 神经 科学 兴起 前 ， 一 直 或 多 或 少 
地 受到 忽视 。 


个 能 把 语言 问题 只 留 给 语言 学 家 


此 后 ， 乔 姆 斯 基 还 多 次 使 用 了 同样 的 修辞 论证 ， 其 中 最 著名 的 是 
他 基于 “刺激 匮乏 ”(poverty of the stimulus) 对 先天 语言 能 力 的 论证 ， 
[10] 其 中 断言 婴儿 在 听觉 上 获取 不 到 足够 的 语言 范例 来 学 习 句 法 的 规 
则 。 但 是 ， 婴 儿 并 不 是 一 台 从 外 界 得 到 一 串 无 形 符号 的 计算 机 。 事 实 
上 ， 一 个 婴儿 沉浸 在 一 个 充满 丰富 感官 体验 的 世界 中 ， 并 会 以 惊人 的 
速度 了 解 世界 的 本 质 。 b 这 个 世界 充满 了 与 声音 有 关 、 意 义 非凡 的 
体验 ， 这 些 体 验 始 于 子宫 ， 是 一 种 无 监督 学 习 。 在 这 一 基础 上 ， 语 言 
开始 形成 ， 首 先是 嘱 嘱 呀 呀 ， 然 后 是 单个 词汇 ， 以 及 后 来 语法 正确 的 
单词 序列 。 先 天 习 得 的 并 不 是 语法 ， 而 是 能 够 从 经 验 中 学 习 语 言 ， 表 
现 出 在 丰富 的 认 知 语 境 中 吸收 话语 的 高 阶 统计 特性 的 能 


令 乔 姆 斯 基 无 法 想象 的 是 ， 如 果 加 上 对 环境 的 深度 学 习 和 用 毕生 
的 经 验 磨 炼 出 的 深度 学 习 的 代价 画 数 ， 像 强化 学 习 这 样 的 弱 学 习 系统 
也 可 以 产生 认 知 行为 ， 包 括 语言 。 在 20 世 纪 80 年 代 ， 这 一 点 对 我 来 说 
并 不 明显 ， 尽 管 我 应 该 认识 到 ， 如 有 果 像 话语 网 络 这 样 的 小 型 网 络 可 以 
处 理 英 语 发 音 ， 那 么 很 可 能 在 对 言语 的 表征 中 ， 学 习 网 络 一 一 无 论 是 
模型 网 络 还 是 皮层 网 络 一 一 痢 对 语言 有 着 天然 的 杀 和 力 。 乔 姆 斯 基 的 
立场 是 基于 想象 力 的 匮乏 ， 但 从 逻辑 来 说 符合 了 奥 格 尔 的 第 二 定律 : 
进化 比 你 聪明 ， 而 这 个 “你 ”也 包括 像 乔 姆 斯 基 这 样 的 专家 。 事 实 上 ， 当 
一 位 专家 告诉 你 目 然 界 的 某 些 事情 十 不 可 能 的 时 候 ， 你 应 该 保持 谍 慎 
不 管 这 个 论证 有 多 么 合理 或 者 令 人 信服 。 


在 20 世 纪 后 半 叶 ， 乔 姆 斯 基 对 语序 和 句法 的 强调 成 为 语言 学 的 主 
导 方 式 。 但 即使 是 一 个 “ 词 袋 ” (bag of words) 模型 的 神经 网 络 ， 抛 弃 
单词 顺序 ， 也 能 在 判定 文章 (如 体育 报道 或 政论 ) 的 主题 方面 表现 出 
色 ， 并 且 通 过 参考 直接 相 邻 的 文字 关系 ， 性 能 还 可 以 得 到 进一步 的 提 
升 。 我 们 通过 深度 学 习 获 得 的 经 验 是 ， 即 使 词 序 包含 一 些 信息 ， 但 基 
于 单词 含义 及 词 间 关 系 的 语义 更 重要 。 词 汇 在 大 脑 中 被 丰富 的 内 部 结 
构 所 表征 。 随 着 我 们 对 在 深度 学 习 网 络 中 词汇 如 何 表达 语义 有 了 更 深 
入 的 了 解 ， 我 们 可 能 会 开启 一 门 新 的 语言 学 。 就 像 大 自然 没有 理由 向 
我 们 揭示 视觉 的 工作 原理 一 样 ， 也 没有 理由 认为 ， 我 们 对 语言 工作 原 
理 的 直觉 会 更 好 。 

我 们 来 考虑 一 下 ， 在 对 自然 语言 任务 进行 训练 的 模型 网 络 中 ， 单 
词 的 内 部 结构 可 能 是 什么 样子 。 虽 然 网 络 可 能 是 针对 特定 问题 进行 训 
练 ， 但 网 络 表征 输入 的 方式 可 被 用 于 解决 其 他 问题 。 一 个 很 好 的 例子 
就 是 训练 一 个 网 络 ， 来 预测 句子 中 的 下 一 个 单词 。 在 经 过 训练 的 网 络 
中 ， 单 词 的 表征 方式 具有 内 部 结构 (以 网 络 中 所 有 单元 的 活动 模式 的 
形式 ) ， 可 以 用 来 在 单词 对 之 间 进 行 类 比 。 U2) 例如 ， 当 这 些 活动 模 
式 被 投影 到 一 个 平面 时 ， 连 接 国 家 和 首都 的 矢量 都 是 一 样 的 。 在 没有 
任何 关于 首都 城市 意味 着 什么 的 监督 信息 的 前 提 下 (图 17-4) ， 网 络 
学 会 了 自动 组 织 概念 并 隐 式 地 学 习 它们 之 间 的 关系 ， 这 就 表明 ， 可 以 
使 用 无 监督 学 习 从 文本 中 提取 国家 和 首都 的 语义 。 
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图 17-4 网 络 中 单词 的 内 部 表征 被 用 来 训练 预测 句子 中 的 下 一 个 单词 。 每 个 单词 都 是 网 络 活动 的 
矢量 ， 可 以 如 上 所 示 投 影 到 二 维 平面 上 。 箭 头 将 国家 连接 到 它们 的 首都 。 由 于 所 有 这 些 箭头 彼 
此 平行 并 且 长 度 大 致 相同 ， 所 以 单词 对 也 以 类 似 的 方式 表示 。 例 如 ， 如 果 你 想 查 找 不 同 国家 的 
首都 ， 可 以 将 此 箭头 添加 到 该 国家 的 矢量 中 ， 并 检索 出 其 首都 的 矢量 。 资 料 来 源 : 工 
Mikolov, I.Sutskever, K. Chen, G. Corrado and J. Dean, "Distributed Representations of Words 
and Phrases and Their Compositionality”, 2 » HAR: ZRXOBUA e 
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我 在 麻 省 理工 学 院 的 一 次 演讲 中 ， 开 门 见 山 地 说 道 : “语言 太 重要 
了 ， 不 能 只 留 给 语言 学 家 去 研究 。”[ 卫 ] 我 的 意思 是 ， 我 们 不 应 该 只 停 
留 在 行为 层面 描述 语言 。 我 们 应 该 理解 语言 背后 的 生物 学 原理 和 潜在 
的 生物 学 机 制 ， 以 及 智 人 的 语言 能 力 是 如 何 演变 的 。 使 用 无 创 大 脑 成 
像 ， 以 及 直接 对 癫 病 患 者 的 大 脑 活动 进行 记录 ， 已 经 使 这 一 想法 成 为 
可 能 。 对 大 脑 研究 来 说 ， 同 等 重要 的 是 通过 比较 人 类 大 脑 与 黑猩猩 和 
其 他 高 等 灵 长 类 大 脑 的 差异 ， 来 理解 语言 是 如 何 形成 的 ， 相 比 在 早期 
经 过 更 加 漫长 的 过 程 获得 感觉 运动 技能 ， 使 用 语言 的 能 力 发 生 在 进化 
的 某 个 瞬间 。 强 大 的 基因 工具 将 使 我 们 能 够 剖析 大 脑 的 发 育 ， 并 理解 
进化 如 何 通过 在 发 育 中 不 断 修正 来 形成 我 们 先天 的 语言 学 习 能 力 。 


语言 可 以 通过 诉 请 似是而非 和 源 目 无 知 的 争论 被 用 来 进行 误导 和 
控制 ， 这 种 无 知 会 产生 和 远 远 超出 科学 范畴 的 负面 影响 。 历 史上 充斥 着 
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弃 的 命运 。 幸 运 的 是 ， 大 脑 存 在 的 时 间 比 语言 要 长 很 多 ， 如 果 我 们 依 
赖 于 早 在 语言 出 现 之 前 束 进 化 出 来 的 那 部 分 大 脑 ， 肯 定 会 从 中 受益 。 
[14] 


难 预测 的 行为 规律 


回想 起 来 ， 行 为 主义 和 认 知 科学 在 20 世 纪 对 行为 的 研究 采取 了 相 
反 的 方式 ， 但 都 犯 了 同样 的 错误 ， 即 忽视 了 大 脑 的 重要 性 。 行 为 主义 
者 不 希望 被 反思 误导 ， 所 以 他 们 认为 不 去 大 脑 中 寻求 指导 ， 实 际 上 是 
一 种 荣耀。 他 们 认为 ， 通 过 仔细 控制 黑匣子 的 输入 和 输出 ， 可 以 发 现 
任何 偶然 事件 的 行为 规律 。“ 功 能 主义 ”的 认 知 科学 家 拒 不 认可 行为 主 
义 ， 并 且 相 信 他 们 可 以 发 现 思维 的 内 在 表征 方式 ， 但 是 因为 他 们 也 相 
信 大 脑 如 何 实现 这 些 表征 的 细节 无 关 紧要 ， US) 因此 他 们 所 开发 的 内 
部 表征 是 基于 不 可 靠 的 直觉 和 大 众 心理 学 。 大 自然 比 这 两 派 都 要 聪 
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黑匣子 的 内 部 状态 非常 复杂 ， 因 此 要 发 现 内 部 表征 和 行为 规律 非 
常 困 难 。 如 果 有 一 天 我 们 确实 发 现 了 行为 规律 ， 很 可 能 会 对 它们 进行 
功能 性 的 描述 ， 尽 管 这 个 描述 可 能 和 量子 力学 对 于 物理 学 家 一 样 ， 征 
违反 直觉 的 。 想 要 发 现行 为 规律 ， 我 们 需要 尽 可 能 依赖 大 脑 。 深 度 学 
习 网 络 是 通过 关注 大 脑 结 构 的 某 些 一 般 特 征 ， 以 及 大 脑 功能 的 一 般 原 
理 来 取得 进步 的 范例 。 我 晕 不 怀疑 强硬 的 功能 主义 者 会 提出 抗议 ， 但 
我 们 需要 前 进 ， 而 不 是 墨守成规 。 在 此 过 程 的 每 一 步 中 ， 添 加 来 自 大 
脑 架 构 的 一 系列 新 特征 都 提升 了 深度 学 习 网 络 的 功能 :皮层 区 域 的 层 
次 结构 ， 深 度 学 习 与 强化 学 习 在 大 脑 中 的 而 合 ， 循 环 皮 层 网 络 中 的 工 


作 记 忆 ， 以 及 关于 事实 和 事件 的 长 期 记忆 ， 等 等 。 我 们 还 可 以 从 更 多 
的 大 脑 计算 原理 中 学 习 ， 并 充分 利用 它们 。 [6| 

研究 知觉 、 记 忆 和 决策 的 神经 科学 家 通常 在 他 们 的 实验 中 使 用 基 
于 试验 的 任务 ， 在 这 些 任 务 中 ， 实 验 动物 接受 训练 以 对 刺激 产生 期 望 
的 反应 。 经 过 数 月 的 训练 后 ， 这 些 刺 激 驱动 的 反应 变 成 了 反射 ， 而 不 
是 反思 ， 这 可 以 揭示 习惯 行为 ， 而 不 是 认 知 行为 背后 的 机 制 。 思 考 不 
是 一 种 反射 ， 它 可 以 在 没有 任何 感官 刺激 的 情况 下 发 生 ， 但 传统 的 实 
验 设计 方式 忽略 了 在 没有 感官 输入 的 情况 下 进行 的 自发 活动 。 我 们 需 
要 新 的 方法 来 研究 与 感官 和 运动 无 关 的 内 部 活动 ， 其 中 包括 有 意识 思 
考 和 无 意识 处 理 。 出 现 了 这 样 一 种 新 的 情况 : 大脑 成 像 实验 揭示 了 当 
人 被 放 入 扫描 仪 并 被 要 求 “休息 "时 ， 所 自发 产生 的 静 息 状态 。 当 无 所 事 
事 时 ， 意 识 则 表现 为 一 种 际 包 不定 的 模式 ， 这 是 一 种 我 们 可 以 观察 到 
但 尚未 理解 的 大 脑 活动 。 

脑 成 像 ， 尤 其 是 无 创 性 功能 磁 共 振 成 像 (fMRI) 开辟 了 研究 社会 
互动 和 决策 制定 的 新 途径 ， 形 成 了 一 个 名 为 “神经 经 济 学 ”的 新 领域 。 
[17] 因为 人 类 并 不 是 经 典 经 济 学 中 经 常 假设 的 理性 行为 者 ， 我 们 的 判 
断 和 动机 来 自 复 杂 的 大 脑 内 部 状态 ， 因 此 我 们 需要 根据 实际 而 非 理想 
化 的 人 类 判断 和 动机 ， 来 建立 一 个 行为 经 济 学 。 [18] 正如 第 10 章 所 
述 ， 多 巴 胺 神经 元 通过 表现 奖励 预测 误差 ， 对 动机 产生 了 强大 的 影 
响 。 针 对 社交 互动 的 大 脑 成 像 ， 能 够 以 纯粹 的 行为 实验 无 法 实现 的 方 
式 探究 人 类 的 动机 。 我 们 的 目标 是 用 基于 先前 经 验 的 概率 决策 理论 ， 
来 取代 基于 催 辑 的 理性 决策 理论 。 


神经 网 络 的 寒冬 


神经 网 络 的 早期 历史 ， 其 实 就 古 一 个 不 大 但 顾 具 影响 力 的 团队 ， 
如 何 能 够 将 钱 究 方 同市 离 正 轨 的 案例 。 在 《感知 磊 》 这 本 书 尾声 音 


分 ， 马 文 : 明 斯 基 和 西 摩尔 - 帕 普 特 (图 17-5) 表达 了 这 样 的 观点 : 感知 
HE 习 


研学 > 


算法 并 不 能 扩展 到 多 层 感 知 器 : 


图 17-5 照片 拍摄 于 1971 年 马 文明 斯 基 和 西 摩尔 - 帕 普 特 出 版 了 《感知 器 》 一 书后 不 久 。 其 中 对 
简单 网 络 出 色 的 数学 分 析 ， 让 一 代 追 求 基于 多 层 网 络 学 习 的 人 工 智能 方法 的 研究 人 员 ， 感 到 不 
寒 而 栗 。 图 片 来 源 ， 麻 省 理工 学 院 。 

这 个 扩展 问题 不 仅仅 是 技术 问题 ， 也 是 战略 问题 。 尽 管 (其 至 
是 因为 ) 它 有 着 严重 的 局 限 性 ， 感 知 器 已 经 显示 出 了 研究 价值 。 它 
具有 很 多 引 人 注 目的 特点 : 线性 ， 有 趣 的 学 习 理 论 ， 清 晰 简单 的 范 
例 适 用 于 并 行 计 算 。 但 没有 理由 认为 ， 这 些 特点 中 的 任何 一 种 会 延 
续 到 多 层次 版 本 。 尽 管 如 此 ， 我 们 仍然 认为 这 是 一 个 重要 的 人 赋 完 课 
X, DARA (或 否决 ;我们 对 “其 扩展 是 无 所 作为 的 ”的 直觉 判断 。 
我 们 也 许 会 发 现 一 些 强大 的 收敛 定理 ， 或 者 相反 地 ， 我 们 会 找到 无 
法 为 多 层 机 器 研发 有 趣 的 “学 习 理 论 ” 的 原因 。 [也 | 


宣 无 疑问 ， 其 结 采 导致 了 网 络 学 习 领 域 的 寸 草 不 生 。 在 明 斯 基 和 
由 普 特 的 书 中 ， 这 种 毫 无 根据 的 * 直 觉 ”〈 除 此 之 外 ， 这 倒是 一 本 好 书 ) 
对 神经 网 络 学 习 的 发 展 产 生 了 令 人 人 不寒而栗 的 影响 ， 让 一 代 人 的 研究 
就 此 集注 不 前 。 尽 管 我 个 人 从 这 种 停 注 中 受益 ， 因 为 它 使 我 的 事业 成 
为 可 能 。 但 是 我 有 机 会 在 明 斯 基 职业 生涯 后 期 ， 站 在 幕后 洞察 一 切 。 


我 被 邀请 参加 2006 年 达 特 茅 斯 人 工 智能 会 议 “AIG@50”， 回 顾 1956 年 
LEIA or TAB TAF PER A TEER EMRAH, Hie Aaa 
的 未 来 。 [20] 1956 年 该 项 目的 十 位 先驱 中 的 五 位 出 席 了 这 次 会 议 : IN 
EH K (John McCarthy， 斯 坦 福 大 学 ) ， 马 文明 斯 基 MAALE 
院 ) ， 特 伦 查 德 .摩尔 (Trenchard More, IBM) ， 雷 :所 罗 门 诺 夫 (Ray 
Solomonoff， 伦 敦 大 学 ) 和 奥利弗 . 赛 弗 里 奇 (Oliver Selfridge, MAA 
工学 院 ) 。 无 论 从 科学 还 是 社交 的 角度 来 说 ， 这 都 是 一 次 引人入胜 的 
会 议 。 

卡 内 基 - 梅 隆 大 学 的 金 出 武 雄 (Takeo Kanade) 在 他 的 演讲 < 人 工 智 
能 视野 : 进步 与 非 进步 ”(Artificial Intelligence Vision: Progress and Non- 
Progress) 中 指出 ， 以 今天 的 标准 来 看 ，20 世 纪 60 年 代 的 计算 机 内 存 很 
小 ， 并 且 一 次 只 能 保存 一 张 图 像 。 金 出 武 雄 在 他 1974 年 的 博士 论文 中 
指出 ， 尽 管 他 的 程序 可 以 在 一 个 图 像 中 找到 一 辆 坦克 ， 但 是 在 其 他 图 
像 中 ， 如 有 果 坦 克 处 于 不 同 的 位 置 并 且 光 照 不 同 ， 则 很 难得 到 同样 的 结 
果 。 但 是 ， 当 他 早期 的 学 生 毕 业 时 ， 因 为 电脑 更 强大 ， 他 们 设计 的 程 
序 可 以 在 更 普遍 的 条 件 下 识别 坦克 。 今 天 ， 他 学 生 的 程序 可 以 识别 任 
何 图 像 中 的 坦克 。 不 同 之 处 在 于 ， 今 天 我 们 可 以 访问 数 以 百 万 计 的 图 
像 ， 可 以 对 各 种 姿态 和 光照 条 件 进行 取样 ， 而 且 计 算 机 的 功能 更 是 强 
大 了 数目 万 倍 。 

mAH ILZ? BE te vH EUH S "48 3H 
f" (Intelligence and Bodies) HUY, vb» f EMT AE AL 
as AZ EA o ARETE CA PEEL Le hea), FFA ASR Ae 
Yi EI BE STL AR Ao) o AS ETH TIRA E ARE AA BY ES THU 
as, RIAH, MAES, (EAL ANES o MART a 
搭建 机 器 人 的 了 解 更 加 深入 ,会 更 清楚 地 认识 到 身体 是 意识 的 一 部 
age 

在 “为 什么 目 然 语 言 处 理 现在 是 统计 上 自然 语言 处 理 ”(Why Natural 
Language Processing is Now Statistical Natural Language Processing) 的 演 


讲 中 ， 欧 仁 . 查 尼 阿 元 (Eugene Charniak) 解释 说 ， 语 法 的 基本 作用 是 
在 句子 中 标记 词类 。 人 类 接受 这 方面 训练 后 ， 会 比 现 有 的 解析 程序 做 
得 更 好 。 计 算 语言 学 领域 最 初试 图 应 用 诺 姆 : 乔 姆 斯 基 在 20 世 纪 80 年 代 
首创 的 生成 语法 (generative grammar) 方法 ， 但 结果 令 人 失望 。 最 终 
被 证 明 可 行 的 办 法 是 ， 聘 请 布 朋 大 学 的 学 生 为 《华尔街 日 报 》 上 于 篇 
文章 的 词类 进行 手写 标注 ， 然 后 应 用 统计 技术 ， 根 据 相 邻 单 词 来 确定 
特定 单词 的 词类 。 这 一 过 程 需要 大 量 的 例子 ， 因 为 大 多 数 单词 有 多 重 
含义 ， 每 个 单词 对 应 许多 不 同 的 上 下 文 。 目 前 ， 在 句子 中 对 词类 进行 
目 动 标记 ， 已 经 成 为 可 以 利用 机 器 学 习 来 解决 的 问题 。 

这 些 成 功 的 故事 有 一 个 共同 的 轨迹 。 过 去 ， 电 脑 速 度 很 慢 ， 只 能 
用 少数 几 个 参数 来 探索 一 个 玩具 模型 。 但 是 这 些 玩具 模型 无 法 适用 于 
现实 世界 的 数据 。 当 拥有 了 大 量 数 据 ， 并 有 旦 计算 机 速度 也 更 快 时 ， 就 
可 以 创建 更 复杂 的 统计 模型 ， 并 提取 更 多 特征 和 特征 之 间 的 关系 。 深 
度 学 习 使 这 一 过 程 实现 了 自动 化 。 深 度 学 习 可 以 从 非常 大 的 数据 集中 
提取 特征 ， 而 不 是 让 领域 专家 为 每 个 应 用 程序 手动 创建 这 些 特 征 。 随 
着 计算 取代 了 劳动 力 并 不 断 变 得 更 廉价 ， 计 算 机 将 能 够 执行 更 多 劳动 
密集 型 的 认 知 任务 。 

和 会 议 结束 时 的 忌 结 性 发 言 中 ， 马 文 : 明 斯 基 一 开始 就 表示 ， 他 对 
演讲 和 AI 的 研究 方向 感到 失望 。 他 解释 道 : “你 们 不 是 在 解决 通用 的 智 
能 问题 。 你 们 只 是 在 解决 具体 的 应 用 问题 。” 这 次 会 议 应 该 是 对 我 们 所 
取得 的 进展 的 一 次 庆祝 ， 但 是 却 被 他 的 指责 打击 了 。 我 做 的 澳 讲 是 天 
于 强化 学 习 的 进展 ， 并 展示 了 TD-Gammon 通 过 训练 ， 能 在 西洋 双 陆 柑 
中 表现 出 冠军 水 平 的 显著 成 果 。 不 过 我 的 演讲 并 没有 给 他 留 下 深刻 的 
印象 ， 他 始终 认为 ， 那 只 是 一 个 游戏 吴 了 。 

明 斯 基 的 “通用 的 智能 ”意味 着 什么 呢 ? 他 在 其 著作 《心智 社会 》 

(The Society of Mind) 121] 中 提 到 ， 前 提 是 通用 的 智能 来 自 简单 媒介 
之 则 的 相互 作用 。 明 斯 基 曾 经 说 过 ， 有 关 他 的 理论 的 最 大 想法 ， 是 来 
源 于 试图 创建 一 台 使 用 机 器 人 人 手臂、 摄像机 和 计算 机 的 机 器 ， 可 以 用 


儿童 的 积木 构建 一 个 结构 (图 2-1) 。 [22] 这 上 听 起 来 很 像 一 个 应 用 。 一 
个 具体 的 应 用 会 迫使 你 专注 于 并 深入 到 最 底层 问题 ， 而 抽象 理论 化 的 
方法 则 不 能 。 演 言 人 在 达 特 茅 斯 会 议 上 所 报告 的 成 就 ,来自 对 具体 问 
题 的 深入 了 解 ， 为 更 全 面 的 理论 理解 铺 平 了 道路 。 也 许 ， 一 个 更 好 的 
通用 智能 理论 有 一 天 会 从 这 些 狭隘 的 AI 成 就 中 浮现 出 来 。 

我 们 的 大 脑 不 只 是 凭空 产生 抽象 的 想法 。 它 们 与 我 们 号 体 的 所 有 
部 位 密切 相连 ， 而 我 们 的 身体 又 通过 我 们 的 感官 输入 和 运动 效应 器 与 
外 界 冤 切 相 连 。 生 物 智 能 因此 而 具体 化 。 更 重要 的 是 ， 我 们 的 大 脑 在 
与 外 界 互 动 的 同时 ， 经 历 了 一 个 漫长 的 成 熟 过 程 。 学 习 是 一 个 与 发 育 
同时 进行 的 过 程 ， 并 且 在 我 们 达到 成 年 后 仍然 会 持续 很 长 一 段 时 间 。 
因此 ， 学 习 对 于 通用 智能 的 发 展 至 关 重 要 。 有 趣 的 是 ， 人 工 智能 中 最 
难 解 决 的 问题 之 一 是 常识 ， 显 然 这 是 儿童 并 不 具备 的 ， 只 有 在 长 期 与 
外 界 接触 后 ， 大 多 数 成 人 才 会 获得 常识 。 人 工 知 能 中 经 常 忽略 的 情绪 
和 通 感 也 是 智能 的 一 个 重要 方面 。 2 情绪 是 个 整体 信号 ， 可 以 使 大 
脑 为 不 能 由 局 部 大 脑 状态 决定 的 行动 做 好 准备 。 

AIG@50 的 最 后 一 天 举行 了 宴会 。 在 晚餐 结束 时 ，1956 年 达 特 芭 斯 
人 工 智 能 夏季 研究 项 目的 5 名 回归 成 员 人 简要 介绍 了 会 议和 人 工 智能 的 未 
来 。 在 问答 期 间 ， 我 站 起 来 ， 转 回 明 斯 基 说 道 : “神经 网 络 社 区 有 一 种 
看 法 : 你 是 上 世纪 70 年 代 需 要 为 神经 网 络 萧 条 负责 的 魔 岂 。 你 是 魔 匈 
吗 ? ” 明 斯 基 发 起 了 一 场 关 于 我 们 如 何不 理解 我 们 网 络 的 数学 局 限 性 的 
长 篇 大 论 。 我 打 断 了 他 : “ 明 斯 基 博 士 ， 我 问 的 是 一 个 是 或 否 的 问题 。 
你 是 ， 还 是 不 是 ? ”他 犹 隐 了 片刻 ， 然 后 喊 道 :“ 是 的 ， 我 是 魔 见 ! ” 

1958 年 ， 弗 兰 克 . 罗 森 布 拉 特 制造 了 一 个 模拟 计算 机 ， 被 设计 用 来 
模拟 感知 器 ， 因 为 当时 数字 计算 机 在 模拟 计算 密集 度 高 的 网 络 模 型 时 
速度 很 慢 。 到 了 20 世 纪 80 年 代 ， 计 算 机 的 计算 功能 大 大 提升 ， 让 我 们 
能 够 通过 模拟 小 型 网 络 来 探索 学 习 算法 。 但 直到 2010 年 ， 才 有 足够 的 
计算 机 能 力 将 网 络 规模 扩大 到 可 以 解决 实际 问题 的 程度 。 


明 斯 基 在 1954 年 从 普林斯顿 大 学 获得 数学 博士 学 位 ， 他 的 论文 是 
关于 用 神经 网 络 进 行 计 算 的 理论 和 实验 研究 。 他 甚至 用 电子 部 件 构建 
出 了 小 型 网 络 ， 以 了 解 它 的 行为 。 当 我 还 是 普林斯顿 大 学 物理 系 的 研 
究 生 时 ， 就 听 说 数学 系 里 没有 人 有 资格 评审 他 的 论文 041, BRAT 
把 它 发 给 了 普林斯顿 高 等 研究 院 的 数学 家 们 ， 据 说 他 们 能 与 上 帝 交 
谈 。 回 复 的 评论 是 ,“ 如 琳 这 在 今天 不 是 数学 ， 示 来 总 有 一 天 会 是 。” 这 
足以 为 明 斯 基 启 得 他 的 博士 学 位 。 而 神经 网 络 确实 引发 了 一 类 新 的 数 
学 函数 ， 这 些 画 数 激 发 了 新 的 研究 ， 并 正在 成 为 数学 的 一 个 新 分 文 。 
年 轻 的 明 斯 基 超 越 了 他 的 时 代 。 
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马 文 . 明 斯 基于 2016 年 去 世 ， 他 坚信 神经 网 络 无 法 实现 通用 的 人 工 
智能 。 斯 蒂 芬 . 沃 尔 夫 勒 姆 在 一 篇 关于 他 与 明 斯 基 友 谊 的 文章 中 关切 地 
写 道 : “虽然 我 认为 没有 人 能 在 当时 就 预见 到 ， 但 我 们 现在 知道 ， 马 文 
早 在 1951 年 就 已 经 在 研究 的 神经 网 络 ， 在 朝 着 他 所 希望 的 那 种 令 人 叹 
为 观 止 的 AI 能 力 发 展 的 正确 道路 上 前 进 。 可 惜 这 个 过 程 太 久 了 ， 马 文 
几乎 没 能 看 到 它 的 实现 。”[23] 


明 斯 基 去 世 后 不 久 ，DeepMind 的 研究 人 员 艾 历 元 斯 :格雷 夫 斯 
(Alex Graves) 和 格雷 格 : 韦 恩 (Greg Wayne) 通过 添加 动态 外 部 存储 
器 ， 实 现 了 基于 深度 学 习 的 通用 人 工 智能 的 下 一 步 。 [26] 活动 模式 在 
深度 循环 神经 网 络 中 只 能 被 暂 时 存储 ， 这 就 很 难 对 推理 和 推断 进行 模 
拟 。 通 过 在 网 络 中 添加 一 个 稳定 的 存储 器 ， 可 以 像 数 字 计 算 机 内 存 一 
样 灵活 地 写 入 和 读 取 ， 人 研究 人 员 展 示 了 一 个 训练 好 的 强化 学 习 网 络 ， 
可 以 回答 需要 推理 的 问题 。 例 如 ， 一 个 这 样 的 网 络 对 伦敦 地 铁路 线 做 
出 了 合理 的 规划 ， 另 一 个 则 回答 了 关于 家 谱 中 成 员 关 系 的 问题 。 动 态 
记忆 网 络 (Dynamic Memory Networks) 也 能 够 掌握 20 世 纪 60 年 代 对 厅 


省 理工 学 院 人 工 智能 实验 室 提 出 挑战 的 “积木 世界 ”任务 (图 2-1) 。 这 
就 带 我 们 回 到 了 第 2 章 开 始 的 地 方 。 


弗朗西斯 . 克 里 克 于 2004 年 去 世 ， 此 后 不 久 ， 莱 斯 利 . 奥 格 尔 在 2007 
年 也 去 世 了 ， 这 标志 着 索 尔 克 研 究 所 一 个 时 代 的 终结 。 现 在 这 些 科学 
巨人 已 经 不 在 我 们 身边 了 ， 而 新 一 代 的 学 者 仍 在 向 前 迈进 。 我 在 索 尔 
克 研 究 所 工作 了 30 年 ， 相 当 于 它 一 半 的 寿命 。 我 们 的 大 家 庭 组 建 于 
1960 年 ， 所 有 的 教 职 工 都 在 同一 条 小 船上 。“ 索 尔 克 号 "很 小 ， 小 到 每 个 
人 都 认识 对 方 。 但 即使 在 今天 ， 我 们 有 了 1000 人 的 团队 ， 它 仍然 会 带 
给 我 们 一 种 家 的 感觉 ， 也 证 明了 这 个 机 构 文化 的 持久 性 。 

我 们 是 一 个 伟大 的 生物 链 (可 以 回溯 到 细菌 出 现 之 前 ) 中 的 一 
员 。 现 在 我 们 已 经 到 了 理解 大 脑 以 及 它们 是 如 何 发 展 的 边缘 ， 这 将 会 
是 一 个 奇迹 ， 能 够 永远 改变 我 们 对 自己 的 看 法 。 
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深度 智能 


Xie AER 


西 德 尼 . 布 伦 纳 (Sydney Brenner) 在 南非 出 生 并 接受 教育 ， 随 后 参 
与 了 剑桥 大 学 早期 的 分 子 遗 传 学 研究 工作 (图 18-1) 。 他 曾 与 弗 朗 西 
斯 . 克 里 克 在 分 子 生 物 学 实验 室 (LMB) 共用 一 个 办 公 室 。 如 果 是 你 ， 
在 发 现 DNA 的 结构 并 解 开 了 遗传 密码 之 后 ， 会 在 下 一 个 项 目 里 做 什 
A? 克 里 克 决定 把 重点 放 在 人 类 的 大 脑 上 。 布 伦 纳 开始 研究 一 种 新 模 
式 生 物 一 一 线虫 (C. elegans) , XE- MEISTE SEHR, 1x 
米 长 ， 只 有 302 个 神经 元 。 长 期 追踪 体内 的 每 个 细胞 ， 了 解 个 体 如 何 从 
一 个 胚胎 逐渐 发 育成 熟 的 研究 ， 使 得 这 些 线虫 成 了 许多 突破 性 发 现 的 
源头 。 布 伦 纳 因为 这 项 研究 ， 在 2002 年 和 罗伯特 : 霍 维 茨 (H. Robert 
Horvitz) 、 约 翰 : 苏 尔 斯 屯 (John E. Sulston) ， 共 同 分 享 了 诺 贝 尔 生 理 
学 或 医学 奖 。 布 伦 纳 也 因 他 的 智慧 而 闻名 。 他 在 诺 贝 尔 获 奖 者 演讲 
中 ， 赞 扬 了 线虫 : “我 今天 的 演讲 题目 是 ‘大 自然 对 科学 的 恩 
赐 (Nature's gift to Science) 。 内 容 并 不 是 关于 一 个 科学 期 刊 对 另 一 个 
期 刊 的 致敬 ， 而 是 关于 生命 世界 的 多 样 性 如 何 启发 和 服务 于 生物 研究 
领域 的 创新 。” [ 看 上 去 西 德 尼 - 布 伦 纳 似乎 见证 了 “ 创 世 记 ”。 


图 18-1 西 德 尼 - 布 伦 纳 是 生物 学 界 的 传奇 人 物 。 他 研究 遗传 密码 ，DNA 中 碱 基 对 被 转 录 成 蛋 日 


质 的 方式 ， 并 因 其 对 模式 生物 的 开创 性 研究 工作 而 获得 诺 贝 尔 奖 。 这 张 照 片 来 自 2010 年 《科学 
网 络 》 对 他 的 采访 ，http://thesciencenetwork.org/ programs/the-science-studio/sydney-brenner-part- 
1 o 


布 伦 纳 2009 年 在 索 尔 克 研 究 所 做 过 三 场 系 列 讲座 ， 标 题 是 “阅读 人 
类 基因 组 ” (Reading the Human Genome) [2 ， 讲 座 很 精彩 ， 没 有 借 
助 任何 幻灯 片 或 道具 。 他 注意 到 ， 除 了 电脑 ， 还 从 没有 人 曾经 阅读 过 
整个 人 类 基因 组 ， 一 个 个 地 检查 碱 基 对 ， 于 是 便 将 其 作为 自己 的 目 
标 。 在 这 个 过 程 中 ， 他 发 现 了 不 同 的 基因 和 物种 的 DNA 序 列 之 间 有 趣 
的 相似 之 处 。 


布 伦 纳 在 全 球 多 个 研究 机 构 都 有 教 职 。 他 在 新 加 坡 有 一 个 实验 项 

H; 也 是 日 本 冲绳 理工 学 院 的 创始 校长 ; 弗吉尼亚 州 阿 什 本 
(Ashburn) 附近 霍华德 . 休 斯 医学 研究 所 珍妮 莉 亚 研究 园区 的 高 级 研究 
Di; 还 是 我 在 拉 人 答 亚 索 尔 克 研究 所 领导 的 克 里 克 - 雅 各 布 理论 与 计算 生 
物 学 中 心 ( Crick-Jacobs Center for Theoretical and Computational 
Biology) 的 高 级 研究 员 。 以 上 只 是 其 中 的 几 个 头衔 。 在 戴 维 ' 马 尔 获 得 
了 他 的 博士 学 位 后 ， 布 伦 纳 聘请 马尔 在 LMB 从 事 计 算 研 究 工作 ， 后 来 
MEME CY BS EA Ac PER a, CEN BE ACY ATSC So 


室 为 马尔 安排 了 一 个 职位 。 分 子 遗 传 学 和 神经 生理 学 之 间 的 关系 很 
深 ， 而 布 伦 纳 在 这 两 个 领域 都 处 于 中 心 位 置 。 

布 伦 纳 有 一 次 去 拉 荷 亚 的 时 候 ， 我 和 他 吃 了 顿 晚饭 ， 其 间 我 告诉 
他 ， 多 年 前 我 在 哈佛 医学 院 做 博士 后 的 时 候 听 过 一 个 故事 一 弗 朗 西 
斯 : 克 里 克 死 后 到 了 天 堂 。 圣 彼得 看 到 这 个 坚定 的 无 神 论 者 感 到 很 惊 
证 ， 但 弗朗西斯 去 天 堂 是 想 问 上 帝 一 个 问题 。 他 被 带 到 了 田野 中 的 一 
个 木 棚 里 ， 里 面 散落 着 各 种 轮子 和 欧 轮 ， 都 是 失败 的 试验 品 。 弗 朗 西 
斯 看 到 上 帝 围 着 皮质 围裙 站 在 工作 台 边 ， 正 在 修补 一 个 新 的 有 机 
体 。“ 弗 朗 西 斯 ，” 上 帝 说 ,“ 见 到 你 真是 太 高 兴 了 “。 我 可 以 为 你 做 些 什 
么 ? >"“ 在 我 的 一 生 中 ，?* 弗 朗 西 斯 说 ，“ 我 都 想 知道 这 个 问题 的 答案 : 为 
fF LESER podus? ” Dl “亲爱 的 弗朗西斯 ,， ”上 帝 回答 道 ，“ 这 真是 个 
惊喜 ! 从 来 没有 人 问 过 我 这 个 问题 。 我 已 经 将 成 虫 盘 放 入 苍蝇 体内 数 
亿 年 了 ， 还 从 来 没有 听 到 过 任何 抱怨 。” 

听 完 这 个 故事 ， 布 伦 纳 没 说 话 。 我 猜想 ， 讲 这 么 一 个 贬损 他 的 亲 
密 朋 友 的 故事 ， 或 许 有 些 冒犯 。“ 特 里 ，” 他 说 ,“ 我 可 以 告诉 你 我 第 一 
次 碰 到 这 个 故事 的 那个 场景 。 弗 朗 西 斯 和 我 坐 在 办 公 室 里 ， 他 当时 正 
在 读 一 本 关于 发 育 生物 学 的 书 ， 突 人 然 举 起 手 说 : ‘上帝 才 知 道 苍蝇 为 什 
么 会 有 成 虫 盘 1 ” 

FUR T° 找到 你 几 十 年 前 就 听 过 ， 并 复述 了 无 数 次 的 故事 的 源 
头 的 机 会 ， 有 多 少 昵 ? 我 让 布 伦 纳 告诉 我 最 初 的 版 本 。 他 说 故事 的 标 
题 是 “天 堂 里 的 弗朗西斯 克 里 克 ”;， 他 的 故事 版 本 与 我 的 版 本 有 着 相同 
的 基本 结构 ， 但 细节 却 不 尽 相 同 [ ”就 像 进化 过 程 一 样 ， 故 事 的 基 
本 核心 不 变 ， 但 许多 细节 却 改变 了 e 

我 于 2017 年 1 月 探望 了 在 新 加 坡 的 布 伦 纳 ， 庆 祝 他 的 90 岁 生日 。 他 
因为 健康 问题 不 再 旅行 ， 还 需要 坐 在 轮椅 上 ， 但 仍 和 我 之 前 每 次 见 到 
他 时 那样 有 活力 。 西 奥 多 西 厄 斯 :多 布 赞 斯 基 ( Theodosius 
Dobzhansky) 曾经 说 过 ， 没 有 进化 论 ， 生 物 学 中 的 任何 东西 都 讲 不 
通 。[3] 布 伦 纳 于 2017 年 2 月 21 日 在 新 加 坡 南洋 理工 大 学 举行 了 一 场 关 


于 细菌 进化 的 演讲 ， 该 演讲 是 系列 讲座 《10 个 10: 进化 编 年 史 》 (10- 
on-10: The Chronicle of Evolution) [8] » [Z] 2017 年 7 月 14 日 ， 我 也 在 
这 个 系列 讲座 中 做 了 关于 大 脑 进 化 的 主题 演讲 。 在 演讲 的 开头 ， 我 对 
多 布 赞 斯 基 的 那 句 话 做 了 些许 改动 : 没有 DNA， 和 生物 学 中 的 任何 东西 
都 讲 不 通 。 [8] 


每 个 物种 都 有 食 能 


智能 在 许多 物种 中 发 展 起 来 ， 以 解决 它们 在 环境 中 面 对 的 生存 问 
题 。 在 海洋 中 进化 的 动物 与 在 陆地 上 进化 的 动物 相 比 ， 面 临 着 许多 不 
同 的 问题 。 视 觉 感知 使 我 们 能 够 感知 周围 的 世界 ， 我 们 还 发 展 出 了 视 
觉 智 能 来 解释 这 些 视觉 信号 。 人 研究 非 人 类 动物 的 自然 行为 的 动物 行为 
学 家 们 ， 已 经 在 这 些 动物 号 上 发 现 了 人 类 并 不 具备 的 能 力 和 技巧 ， 如 
回声 定位 : 蜗 量 主动 发 出 听觉 信号 来 探测 它们 所 处 的 环境 ， 并 对 回声 
进行 分 析 。 这 创造 了 外 部 世界 的 内 部 表征 ， 所 有 表象 都 与 我 们 的 视觉 
体验 一 样 生 动 。 蜗 蝠 具有 上 听觉 智能 ， 它 能 分 辩 来 自 圳 豆 的 昆虫 〈 可 以 
捕捉 ) 和 来 自 障碍 〈 需 要 避免 ) 的 信号 。 

纽约 大 学 的 哲学 家 托马斯 :内 格 尔 (Thomas Nagel) 在 1974 年 写 了 
一 篇 题 为 《成 为 一 只 蝙蝠 是 什么 感觉 ? 》 (What Is It Like to Be a 
Bat?) 的 文章 ， 并 得 出 结论 ， 如 果 没 有 回声 定位 的 直接 经 验 ， 我 们 就 无 
法 想象 蝙 旺 世界 是 什么 样 的 。 [9] 但 缺乏 这 种 经 验 并 没有 妨碍 我 们 发 明 
雷达 和 声呐 技术 (这 些 技术 使 我 们 能 够 积极 探索 看 不 到 的 世界 ) ， 也 
不 会 阻止 盲人 通过 适应 声音 的 反射 来 摸索 周边 的 环境 。 我 们 也 许 不 知 
道成 为 一 只 蝙蝠 是 什么 感觉， 但 我 们 可 以 发 展 类 蝙蝠 的 智能 ， 协 助 目 
动 芍 驶 汽车 使 用 雷达 和 激光 雷达 行进 。 

我 们 人 类 是 大 自然 中 学 习 方 面 的 佼佼 者 。 我 们 可 以 在 更 广泛 的 领 
域 中 学 得 更 快 ， 记 住 得 更 多 ， 通 过 不 断 党 衍 所 积累 的 知识 更 是 胜 过 任 


何其 他 物种 。 我 们 创造 了 一 种 名 为 "教育 ”的 技术 ， 以 增加 我 们 在 有 生 之 
年 能 够 学 到 的 东西 。 现 在 ， 儿 童 和 青少年 在 教室 里 度 过 了 自己 的 成 长 
H, 不断 学 习 关 世 界 上 他 们 从 未 直接 体验 过 的 事物 。 作 为 相对 近期 的 
人 类 发 明 ， 阅 读 和 写作 需要 很 多 年 才能 和 掌握。 但 是 ， 这 些 发 明 使 得 积 
素 的 知识 能 够 传递 给 下 一 代 ， 比 如 写 书 、 印 制 再 到 阅读 这 个 流程 ， 仅 
靠 口 口 相传 是 积 素 不 了 那么 多 知识 的 。 正 是 写作 、 阅 读 和 学 习 ， 而 非 
说 话 ， 使 现代 文明 成 为 可 能 。 


进化 的 起 产 


我 们 的 进化 起 源 是 什么 ? 我 在 1998 年 协助 建立 的 拉 蓓 亚 人 类 起 源 
小 组 ， 最 初 是 作为 一 个 小 组 定期 举行 会 议 ， 讨 论 可 能 帮助 我 们 回答 这 
个 问题 的 许多 证 据 ， 这 些 证 据 来 自古 生物 学 、 地 球 物理 学 、 人 类 学 、 
生物 化 学 、 遗 传 学 ， 还 有 比较 神经 科学 。 它 逐渐 吸引 了 很 多 国际 会 
员 ， 并 在 2008 年 成 为 加 州 大 学 圣 友 戈 分 校 / 索 尔 克 人 类 学 学 术 赋 究 和 培 
训 中 心 ( UCSD/Salk Center for Academic Research and Training in 
Anthropogeny， 简 称 CARTA) 。 [10] 正如 NIPS 召 集 所 有 科学 和 工程 团 
队 来 了 解 神 经 计算 一 样 ， 在 探索 我 们 人 类 来 目 哪 里 ， 如 何 走 到 现在 ， 
培养 新 一 代 思考 者 来 寻找 这 些 古 老 问 题 的 答案 方面 ，CARTA 也 吸取 了 
来 自 所 有 科学 领域 的 见解 LLLI 


600 万 年 前 ， 人 属 的 谱系 从 黑猩猩 的 血统 中 分 离 出 来 (图 18-2) 。 
黑猩猩 是 一 种 非常 聪明 的 物种 ， 但 黑猩猩 的 智能 与 我 们 的 完全 不 同 。 
在 试图 教授 黑猩猩 语言 基础 知识 的 笑 试 中 我 们 发 现 ， 它 们 仪 能 学 会 
百 个 符号 ， 用 它 来 表达 简单 的 需求 ， 尽 管 以 这 种 方式 衡量 它们 的 智能 
显得 有 些 不 太公 平 。 如 末 我 们 不 得 不 在 黑猩猩 的 队伍 中 生存 下 去 ， 我 
们 又 会 有 多 好 的 表现 呢 ? 所 有 的 物种 都 和 我 们 一 样 以 目 我 为 中 心 吗 ? 


图 18-2 黑猩猩 的 大 脑 和 体积 更 大 的 人 脑 之 间 的 比较 ， 人 脑 已 经 进化 出 显著 增 大 的 ， 有 更 多 裙 皱 
的 大 脑 皮 层 。 图 片 来 源 : Allman, Evolving Brains, p. 164 ° 


在 人 类 和 黑猩猩 之 间 存 在 的 差异 ， 可 以 在 我 们 的 DNA 中 找到 。 我 
们 知道 这 一 点 已 经 有 一 段 时 间 了 ， 人 类 的 30 亿 个 DNA 碱 基 对 中 ， 与 黑 
猩猩 不 同 的 只 占 1.4%。 当 黑猩猩 的 基因 组 被 首次 测序 后 ， 我 们 认为 自 
己 将 能 够 阅读 生命 之 书 ， 发 现 人 类 与 黑猩猩 有 什么 不 同 。 很 遗憾 ， 此 
书 大 约 有 90% 的 内 容 我 们 都 没有 能 力 读 懂 。 L 我 们 的 大 脑 与 黑猩猩 
的 大 脑 非常 相似 ， 神 经 解剖 学 家 已 经 在 两 个 物种 中 确定 了 相同 的 脑 
区 。 与 人 类 和 黑猩猩 在 行为 中 的 显著 差异 相 比 ， 这 两 个 物种 大 脑 之 间 
的 大 部 分 差异 处 于 分 子 水平 ， 并 且 十 分 微妙 。 这 再 一 次 证 明了 ， 大 自 
然 比 我 们 聪明 。 


人 类 终 将 解决 智能 难题 


羔 斯 利 告诉 我 ， 奥 格 尔 的 第 一 法 则 指出 ， 细 胞 中 的 每 一 个 基本 反 
应 都 会 演化 出 一 种 酶 ， 来 催化 这 种 反应 。 这 种 酶 不 仅 加 速 了 反应 ， 而 
且 还 可 以 通过 与 其 他 分 子 的 相互 作用 来 调节 反应 ， 从 而 使 细胞 更 加 高 
效 ， 适 应 性 更 强 。 目 然 以 一 个 巧妙 的 反应 路 径 开始 ， 通 过 添加 酶 和 备 
份 路 径 逐 渐 改 善 这 个 路 径 。 然 而 所 有 这 些 在 缺失 核心 过 程 的 情况 下 是 
无 法 工作 的 ， 这 个 核心 过 程 对 于 细胞 来 说 就 古 DNA 的 维护 和 复制 ， 它 
在 细胞 生物 化 学 领域 中 扮演 着 “蜂王 ”的 角色 。 


单 细胞 生物 已 经 适应 了 许多 不 同 的 环境 ， 并 在 生态 中 演化 出 它们 
目 己 的 位 置 。 例 如 ， 细 苦 已 经 适应 了 极端 的 环境 一 一 从 海底 的 高 温 液 
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数 千 种 细菌 。 像 大 肠 杆菌 这 样 的 细菌 (图 18-3) 已 经 发 展 出 了 按照 梯 
度 游 向 食物 来 源 的 算法 。 由 于 细菌 太 小 ， 在 几 微 米 的 体 长 里 不 能 直接 
仿 测 到 梯度 ， 于 是 就 使 用 了 趋 化 性 ， 这 涉及 周期 性 地 翻 深 并 随机 游 
5j» 2 这 看 起 来 可 能 会 适得其反 ， 但 通过 在 高 浓度 的 地 方 将 游 动 时 
间 延 长 ， 细 菌 可 以 准确 地 按 浓度 梯度 爬行 。 它 们 的 智能 是 一 种 原始 窜 
能 ， 但 细 瑚 比 最 聪明 的 生物 学 家 还 要 聪明 。 这 和 群 最 聪明 的 生物 学 家 疝 
未 弄 清 楚 细 苗 是 如 何在 如 此 多 样 的 环境 中 生存 的 。 在 多 细胞 动物 中 可 
以 发 现 更 复杂 的 智能 形式 。 
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图 18-3 大 肠 杆 菌 的 扫描 电子 显 微 照 片 。 细 菌 是 地 球 上 最 多 样 、 最 健壮 、 最 成 功 的 生命 形式 。 通 
过 研究 它们 ， 我 们 可 以 学 到 很 多 关于 自主 智能 的 知识 。 图 片 来 源 : NIAID，NIH 。 


我 们 已 经 看 到 ， 强 化 学 习 的 时 间 差分 学 习 算法 可 能 导致 高 度 复 杂 
的 行为 ， 通 过 人 类 大 脑 皮层 的 深度 学 习 ， 强 化 了 人 类 的 复杂 性 。 上 自然 
寞 有 一 系列 的 智能 行为 ， 可 以 让 人 工 系统 从 中 学 习 。 跨 越 计算 机 科学 
和 生物 学 的 算法 生物 学 是 一 个 新 的 科学 领域 ， 寻 求 使 用 算法 的 语言 3 
描述 生物 系统 所 使 用 的 问题 解决 策略 。 [14] 我 们 希望 ， 确 定 这 些 生物 
算法 将 会 局 迪 新 的 工程 计算 范式 ， 并 能 让 我 们 对 生物 网 络 有 系统 级 的 
理解 。 以 上 都 不 是 重点 ， 最 终 的 目标 是 解释 路 空间 和 时 间 斥 度 的 生物 
ASCP REA ARTE: 基因 网 络 、 代 谢 网 络 、 免 疫 网 络 、 神 经 网 络 和 
性 交 网 络 一 一 全 部 都 是 网 络 。 

深度 学 习 取 决 于 对 一 个 成 本 函数 的 优化 。 自 然 界 的 成 本 函数 是 什 
AWE? 进化 成 本 的 倒数 被 称 为 适应 度 ， 但 这 是 一 个 概念 ， 只 在 具体 的 
约束 条 件 下 才 有 意义 ， 无 论 约束 条 件 是 来 自 环 境 ， 还 是 来 自 要 被 优化 
的 系统 。 在 大 脑 中 ， 有 一 些 调 市 行为 的 固有 成 本 ， 例 如 对 食物 、 温 
度 、 安 全 、 氧 气 和 生育 的 需要 。 在 强化 学 习 中 ， 需 要 采取 行动 来 优化 
未 来 的 回报 。 但 除了 保证 生存 的 天 励 之 外 ， 从 人 类 令 人 眼花 绑 乱 的 行 
为 中 可 以 看 出 ， 还 有 各 种 各 样 其 他 的 奖励 可 以 被 优化 。 是 不 古 一 些 潜 
在 的 通用 成 本 函数 导致 了 这 种 多 样 性 呢 ? 

我 们 仍 在 寻找 暴露 智能 最 高 形态 秘密 的 核心 概念 。 我 们 已 经 确定 
了 一 些 关 键 原则 ， 但 是 却 没有 一 个 概念 框架 能 像 DNA 解 释 生 命 本 质 那 
样 ， 优 雅 地 解释 大 脑 如 何 运转 。 学 习 算 法 是 寻找 统一 概念 的 好 地 方 。 
也 许 ， 我 们 在 理解 深度 学 习 网 络 如 何 解决 实际 问题 方面 取得 的 进展 ， 
将 引出 更 多 线索 。 我 们 可 能 会 发 现 细胞 和 大 脑 中 使 进化 成 为 可 能 的 操 
作 系 统 。 如 末 我 们 能 解决 这 些 问题 ， 束 可 能 会 有 想象 不 到 的 收获 。 日 
然 可 能 比 我 们 每 一 个 人 都 更 聪明 ， 但 作为 一 个 物种 ， 我 并 不 认为 人 类 
无 法 解决 智能 难题 。 
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附 永 一 
致谢 


我 工作 的 索 尔 克 生 物 研 究 所 是 一 个 与 众 不同 的 地 方 。 从 外 面 看 ， 
它 承 像 一 个 宴 族 土 堡 爸 ， 但 是 当 你 进入 中 央 庭 院 时 ， 会 看 到 一 大 片 石 
灰 岩 延伸 到 太平 洋 ， 两 侧 高 管 的 塔 架 让 这 美 轮 美 免 的 景色 定格 在 你 的 
眼前 (图 1) 。 H 我 的 实验 室 在 南 楼 ， 位 于 庭院 外 (照片 左 侧 ) 。 你 
在 入 口 处 左边 的 墙 上 会 看 到 一 张 电 子 显 微 镜 下 的 海马 体 的 照片 ， 它 看 
起 来 像 一 盘 意大利 面 的 横 截 面 ， 入口 通 向 茶室 ， 那 里 是 计算 机 神经 生 
物 学 实验 室 的 心脏 。 

世界 上 最 杰出 的 一 些 科 学 和 家， 包括 弗 朋 西 斯: 克 里 克 ， 很 喜欢 与 学 
生 和 同事 围 着 圆 形 的 白色 茶 桌 讨论 各 种 科学 问题 (图 2) EXE, HK 
室 还 出 现在 了 克 里 克 的 著作 《惊人 的 假说 》 (The Astonishing 
Hypothesis ) 中 : 


特 里 . 澳 诺 夫 斯 基 在 索 尔 克 研究 所 的 团队 ， 在 本 周 的 大 多 数 午餐 
后 都 会 举行 非 正式 的 茶会 。 这 些 茶会 是 讨论 最 新 实验 结果 ， 抛 出 新 
的 想法 ， 或 只 是 聊 聊 科学 、 政 治 或 新 闻 的 理想 场合 。 有 一 天 我 去 哆 
茶 ， 并 向 帕 特 , 丘 奇 兰 德 和 特 里 . 谢 诺 夫 斯 基 宣布 ， 我 发 现 意愿 诞生 
的 位 置 了 ! 它 位 于 或 靠近 前 扣 带 回 。 与 安东尼 奥 . 达 马 西 奥 讨 论 此 事 
时 ， 我 发 现 他 也 有 同样 的 想法 。 [2] 


Ec LEE DN fac tay THER RR I EAE UTERE, RT AREARE o 3k AS EE BR ZZ IS CAT HII PE 
建筑 是 一 座 科 学 的 圣 磺 ， 也 是 我 每 天 上 班 的 地 方 。 图 片 来 源 ，Kent Schnoeker, RREA 
TU ° 


我 尤其 记得 ， 克 里 克 在 1989 年 与 比 阿 特 丽 斯 .哥伦布 一 起 喝 和 茶 的 那 
天 。 他 告诉 我 ， 比 阿 特 丽 斯 想 从 事 神 经 网 络 的 研究 工作 ， 我 应 该 雇用 
她 。 [3] 比 阿 特 丽 斯 是 加 州 大 学 圣迭戈 分 校 的 一 名 医学 博士 生 ， 读 研究 
生 的 时 候 曾 与 克 里 克 一 起 短暂 工作 过 一 段 时 间 。 她 曾 想 把 神经 网 络 作 
为 她 的 博士 论文 项 目 ， 但 这 违反 了 生物 系 的 规定 。 我 接受 了 克 里 克 的 
建议 ， 我 们 彼此 都 从 对 方 那 里 学 到 了 很 多 。 自 我 们 于 1990 年 在 加 州 理 
工学 院 的 Athenaeum 宴 会 厅 举 行 婚礼 以 来 ， 我 一 直 在 向 她 学 习 。 


从 我 在 约 惹 - 霍 普 金 斯 大 学 任教 开始 ， 茶 桌 就 一 直 障 伴 着 我 。 我 于 
1981 年 在 托马斯 :詹金斯 生物 物理 系 从 事 的 第 一 份 工作 中 ， 为 我 的 新 实 
验 室 购买 的 第 一 件 家 具 就 是 茶 桌 。 该 科 系 就 像 一 个 历史 悠久 的 大 家 
庭 ， 而 我 是 年 轻 的 宠儿 ， 他 们 证 我 有 信心 在 新 的 方向 发 展 ， 对 此 我 永 


远 心 存 感激 。 作 为 哈佛 医学 院 神经 生物 学 系 的 博士 后 ， 我 保留 了 下 午 
肥 传 统 。 在 一 个 庞大 而 多 样 的 科 系 里 ， 这 是 一 种 让 大 家 保持 联系 并 了 
解 实验 进展 的 方法 。 我 在 秦 尔 克 人 研究 所 的 实验 室 古 一 个 微型 大 学 ， 拥 


有 来 目 科 学 、 数 学 、 工 程 和 医学 等 不 同 专 业 背 景 的 学 生 ， 下 午 茶 时 间 
是 我 们 大 集体 团聚 的 时 间 。 


图 2 2010 年 索 尔 克 研究 所 计算 神经 生物 学 实验 室 (CNL) 的 茶室 。 日 常 茶会 一 直 是 本 书 描述 的 
许多 学 习 算 法 和 科学 发 现 的 社交 孵化 器 。 图 片 来 源 ， 索 尔 克 生物 研究 所 。 


我 很 圭 运 。 我 的 父母 很 重视 教育 ， 从 小 就 十 分 信任 我 ; 我 生活 在 
前 所 未 有 的 经 济 增长 和 遍地 机 会 的 时 代 ， 这 开阔 了 我 的 视野 ， 我 的 导 
师 和 合作 者 慷慨 地 分 享 了 他 们 的 见解 和 建议 ; 我 有 幸 与 一 代 极 其 优秀 
的 学 生 一 起 工作 。 我 特别 感谢 杰 弗 里 . 注 顿 、 约 翰 : 霍 普 菲 尔 德 、 布 鲁 斯 . 
RIF (Bruce Knight) 、 斯 蒂 芬 . 库 夫 勒 、 迈 克 尔 :斯 蒂 麦 克 (Michael 
Stimac) 和 约翰 : 囊 勒 (John Wheeler) ， 同 样 也 感谢 我 的 岳父 所 罗 门 - 哥 
伦 布 ， 他 们 在 我 职业 生涯 的 各 个 转折 点 帮助 我 选择 了 正确 的 方向 。 比 


阿 等 丽 斯 具有 批判 性 思维 ， 我 从 她 那里 学 到 了 如 何 避 免 群 体 轧 维 。 仅 
仪 因为 每 个 人 都 相信 某 种 解释 ， 并 不 能 证 明 它 就 是 真理 。 有 时 和 需要 花 
费 整整 一 代 人 的 时 间 ， 才 能 从 群体 中 剔除 一 个 普 遇 持 有 的 信念 。 
同时 ， 我 还 要 感谢 在 本 书 的 写作 过 程 中 帮助 过 我 的 其 他 人 。 与 长 
期 合作 者 帕 特 里 夏 . 丘 奇 兰 德 和 “科学 网 络 ” 的 创始 人 有 罗 术 . 宾 汉 姆 (Roger 
Bingham) 在 网 上 进行 的 探讨 ， 为 本 书 的 写作 提供 了 有 灵感。 约翰: 多 伊 
尔 (John Doyle) 对 控制 理论 的 洞 见 局 发 了 我 对 大 脑 操 作 系 统 的 讨论 。 
SJE- MAH (Cary Staller) 在 瑞士 克 洛 斯 特 斯 和 达 沃 斯 附近 山上 的 
徒步 旅行 ， 帮 我 理 清 了 对 算法 空间 的 理解 。 芭 芭 拉 : 奥 克 利 教会 我 如 何 
接触 到 课堂 以 外 的 受众 。 别 里 和 芭 芭 拉 都 帮助 我 塑造 了 讲述 深度 学 习 
故事 的 方式 。 还 有 很 多 人 为 本 书 提 供 了 宝贵 的 反馈 和 建议 ， 他 们 包 
括 : Yoshua Bengio, Sydney Brenner, Andrea Chiba, Gary Cottrell , 
Rodney Douglas, Paul Ekman, Michaela Ennis, Jerome Feldman, Adam 


Gazzaley, Geoffrey Hinton, Jonathan C. Howard, Irwin Jacobs, Scott 
Kirkpatrick，Mark 和 Jack Knickrehm, Te-Won Lee, James McClelland, 
Saket Navlakha, Barbara Oakley, Tomaso Poggio, Charles Rosenberg , 
David Silver, James Simons, Marian Stewart-Bartlett, Richard Sutton, 
Paula Tallal, Gerald Tesauro, Sebastian Thrun, Ajit Varki, Massimo 
Vergassola, Stephen Wolfram 《他 也 为 本 书 的 书 名 提供 了 建议 ) ， 以 及 


Steven Zucker ? 
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一 次 ， 其 中 有 一 小 部 分 核心 成 员 和 新 的 参与 者 在 早上 和 晚上 会 进行 深 
ANE. 下午 是 留 给 大 家 做 户外 活动 的 自由 时 间 一 一 多 么 完美 的 安 
排 。 这 个 研讨 会 的 成 员 都 拥有 了 杰出 的 职业 生涯 。 伍 兹 霍 尔 研讨 会 一 
直 持 续 到 今天 ， 但 于 1999 年 转移 到 特 柳 赖 德 ， 和 年 度 神 经 形态 工程 研 
讨 会 一 起 举办 。 我 感谢 过 去 三 十 年 来 参加 这 些 研 讨 会 的 所 有 有人， 特别 
是 John Allman, Dana Ballard, Robert Desimone, John Doyle, Katalin 
Gothard , Christof Koch, John Maunsell, William Newsome, Barry 
Richmond, Michael Stryker, 和 和 Steven Zucker ° 
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出 的 有 创业 和 合作 精神 的 研究 人 员 ， 他 们 正在 创造 生物 医学 科学 的 未 
来 。 加 州 大 学 圣迭戈 分 校 神经 计算 研究 所 的 教师 和 学 生 ， 在 我 1990 年 
创 所 以 来 ， 以 我 从 未 想象 过 的 方式 整合 了 神经 科学 和 计算 。 


索 尔 殉 人 研究 所 的 计算 神经 生物 学 实验 室 在 过 去 的 三 十 年 里 一 直 是 
我 的 家 ， 我 的 许多 学 术 弟 子 已 经 离开 ， 在 全 世界 继续 着 从 盈 发 展 的 职 
业 和 生涯。 一 个 实验 室 束 像 一 个 家 峙 ， 几 代 热 情 的 研究 生 和 博士 后 大 大 
丰富 了 我 的 生活 。 我 的 实验 室 管 理 员 罗 丝 玛丽 : 米 勒 (Rosemary 
Miller) 和 玛丽 : 艾 伦 : 修 里 (Mary Ellen Perry) 精心 地 照顾 着 实验 室 。 
玛丽 : 艾 伦 在 过 去 的 十 年 中 一 直 担 任 NIPS 的 董事 总 经 理 ， 李 :坎贝尔 

(Lee Campbell) 开发 了 一 个 计算 机 平台 ， 使 我 们 能 够 将 会 议 规模 扩大 
十 倍 。 

我 很 感谢 麻 省 理工 学 院 出 版 社 ， 四 十 年 来 它 一 直 是 我 可 靠 的 合作 
伙伴 ， 出 版 了 我 和 托 马 索 : 波 吉 奥 编 辑 的 一 套 天 于 计算 神经 科学 的 丛 
书 ; 我 于 1989 年 创立 的 期 刊 《神经 计算 》 (Neural Computation) ; 我 
于 1992 年 出 版 的 书 《 计 算 大 脑 》 (The Computational Brain) ; 以 及 其 
他 人 写 的 一 些 关 于 机 器 学 习 的 基础 书籍 ， 比 如 理 碍 德 . 萨 顿 和 安德鲁 . 巴 
托 的 《强化 学 习 导 论 》 (Reinforcement Learning : An Introduction ) ， 
伊 恩 :古人 德 费 洛 、 约 书 亚 :本 吉 奥 和 亚 伦 : 库 维尔 (Aaron Courville) 联合 
撰写 的 该 领域 最 重要 的 教科 书 《 深 度 学 习 》。 麻 省 理工 学 院 出 版 社 的 
罗伯特 : 普 赖 尔 (Robert Prior) 在 本 书 漫长 的 出 版 过 程 中 ， 也 对 本 书 的 
写作 提供 了 指导 。 

我 还 要 感谢 NIPS 社 区 ， 没 有 人 他们， 我 就 无 法 写 出 这 本 《深度 学 
习 》， 本 书 远 没 有 渔 兰 这 个 领域 的 全 面 历史 ， 它 只 关注 了 几 个 主题 和 
参与 神经 网 络 研 究 的 一 些 人 。 国 际 神经 网 络 协会 的 期 刊 《神经 网 络 》 
一 直 是 扩大 神经 网 络 研 究 范围 上 的 坚强 后 盾 。 该 协会 与 IEEE 合 作 ， 每 年 
举办 一 次 神经 网 络 国际 联合 会 议 。 机 器 学 习 也 催生 了 许多 优秀 的 会 
议 ， 包 括 国 际 机 器 学 习 会 议 (CML) ， 这 是 NIPS 的 姊妹 会 议 。 这 个 领 
域 极 大 地 爱 囊 于 来 目 所 有 这 些 组 织 ， 以 及 对 其 做 出 贡献 的 研究 人 员 。 


在 2018 年 长 滩 NIPS 的 开幕 式 上 ， 我 对 NIPS 的 发 展 表达 了 惊叹 : “我 
在 30 年 前 第 一 次 参加 NIPS 会 议 时 从 来 没有 想到 ， 今 天 会 站 在 这 里 ， 面 
对 着 8000 名 与 会 者 发 表演 讲 一 -我 当时 以 为 这 个 会 议 只 能 持续 10 
年 。” 我 于 2016 年 4 月 访问 了 现 居 加 州 山 景 城 (Mountain View) 的 杰 弗 
E-A o «AE AR” (Google Brain) 团队 占据 了 一 栋 大 楼 的 一 整个 楼 
层 。 我 和 杰 弗 里 一 起 回顾 过 去 的 日 子 ， 得 出 了 我 们 已 经 赢得 胜利 的 结 
论 ， 但 花费 的 时 间 比 我 们 预期 的 要 长 得 多 。 在 这 个 过 程 中 ， 杰 弗 里 入 
选 了 英格兰 和 加 拿 大 皇家 学 会 。 我 也 被 选 为 美国 国家 科学 院 、 国 家 医 
学 院 、 国 家 工程 院 、 国 家 发 明 家 科学 院 和 国家 艺术 与 科学 学 院 院士 ， 
这 些 都 是 难得 的 荣誉 。 我 非常 感谢 杰 弗 里 : 痒 顿 多 年 来 和 我 分 享 他 对 网 
络 计算 的 见解 。 


作为 普林斯顿 大 学 的 研究 生 ， 我 曾经 致力 于 研究 爱 因 斯 坦 的 引力 
理论 ， 厂 义 相 对 论 中 的 黑洞 和 引力 波 。 然 而 ， 在 获得 我 的 物理 学 博士 
学 位 之 后 ， 我 的 研究 领域 较 向 了 神经 生物 学 ， 大 脑 目 那 时 起 束 引 起 了 
我 的 兴趣 。 我 还 不 知道 我 的 第 三 次 转变 可 能 是 什么 。 所罗门 哥伦布 兽 
经 告诉 我 ， 所 谓 事 业 ， 只 能 用 来 奶 溯 ， 我 在 写 这 本 书 时 也 确认 了 这 一 
点 。 回 顾 过 去 ， 我 发 现 了 那些 让 我 走 到 今天 这 一 步 的 事件 和 决定 ， 当 
然 ， 当 时 的 我 对 这 一 切 还 一 无 所 知 。 


[1] 参阅 Sarah Williams Goldhagen, Louis Kahn ’s Situated Modernism (New Haven:Yale 
University Press, 2001) ° 


[2] Francis Crick, The Astonishing Hypothesis: The Scientific Search for the Soul . (New York: 
Scribner's Sons, 1994), 267. 
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词汇 表 


自 适应 信号 处 理 (adaptive signal processing) : 提高 信号 质量 的 
方法 ， 例 如 目 动 粒度 控制 ， 或 可 目 动 降低 噪声 的 可 调节 滤波 妖 。 

算法 (algorithm) : 一 个 列 出 了 具体 操作 步骤 的 说 明 ， 你 可 以 按 
步骤 来 实现 一 个 目标 ， 职 像 对 照 染 谱 烘 焙 蛋糕 一 样 。 

Re (或 误差 反 向 传播 ) [ backprop ( backpropagation of 
errors) | : 通过 梯度 下 降 来 优化 神经 网 络 的 学 习 算 法 ， 以 最 小 化 代 
价 函 数 的 值 并 提高 网 络 性 能 o 

贝 叶 斯 规则 (Bayes’s rule) : 基于 新 数据 和 与 事件 相关 条 件 的 先 
验 知识 ， 对 事件 概率 进行 更 新 的 规则 。 更 一 般 地 说 ， 贝 叶 斯 概率 是 对 
当前 和 先 验 数 据 产生 结果 的 信念 。 


玻 尔 效 曼 机 (Boltzmann machine) : 一 种 神经 网 络 模型 ， 由 相 
互 作用 的 二 进 制 单元 组 成 ， 其 中 单元 处 于 活跃 状态 的 概率 取决 于 其 整 
合 的 突 触 输入 。 该 模型 以 19 世 纪 物 理学 家 路 德 维和 希 . 玻 尔 效 曼 命 和 名， 他 
是 统计 力学 的 黄 基 人 。 


约束 条 件 (constraints) : 让 最 优化 问题 的 解决 方案 必须 满足 的 
保证 其 值 为 正 的 条 件 。 

卷 积 (convolution) : 通过 计算 一 个 函数 与 另 一 个 函数 相对 移 位 
的 重 登 量 ， 将 两 个 函数 进行 宴 合 。 


RAY (cost function) : 用 来 指定 网 络 目的 并 衡量 其 性 能 表 
现 的 函数 。 学 习 算法 的 目的 是 降低 代价 函数 的 值 。 

数字 助理 (digital assistant) : 用 以 辅助 完成 任务 的 虚拟 助理 ， 
比如 亚马逊 智能 音箱 Echo 中 的 语音 助理 Alexa。 


周期 (epoch) : 学 习 过 程 中 ， 从 指定 数量 的 样本 中 计算 出 平均 
梯度 后 神经 网 络 中 权重 的 更 新 。 


平衡 (equilibrium) : 热力 学 状态 ， 其 中 没有 物质 或 能 量 的 净 宏 
观 流动 。 在 玻 尔 兹 曼 机 中 ， 神 经 单元 状态 是 概率 性 的 ， 当 输入 保持 不 
变 上 时， 系统 会 最 终 稳 定 在 平衡 状态 。 


反馈 (feedback) : 神经 网 络 中 由 高 /后 层 流 向 低 /前 层 神 经 元 的 
连接 ， 这 种 连接 使 信号 在 网 络 中 形成 了 环流 。 


前 馈 网 络 (feedforward network) : 一 种 多 层 神经 元 网 络 ， 其 中 
各 层 神 经 元 之 间 的 连接 是 单 加 的， 从 输入 层 开 始 ， 到 输出 层 结 束 。 


梯度 下 降 (gradient descent) : 一 种 以 降低 代价 画 数 为 目的 的 优 
化 方法 ， 在 每 个 周期 中 都 会 对 参数 进行 调整 ， 代 价 函 数 用 来 衡量 网 络 
模型 的 性 能 。 

霍 普 菲 尔 德 网 络 (Hopfield net) : 由 约翰 . 霍 普 菲 尔 德 发 明 的 全 
连接 神经 网 络 模型 ， 根 据 不 同 的 输入 状态 ， 该 模型 都 能 保证 收敛 成 固 
定 的 吸引 子 形 态 ， 可 以 用 来 存储 和 提取 信息 。 对 该 网 络 进行 过 探讨 的 
MBA LTE 0 

学 习 算法 (learning algorithm) : 基于 样本 来 调整 函数 参数 的 算 
法 。 同 时 提供 了 输入 和 目标 输出 样本 的 是 监督 算法 ， 仅 提供 输入 样本 
的 是 无 监督 算法 。 强 化 学 习 是 监督 学 习 算 法 的 一 种 ， 仅 对 好 的 表现 进 
行 奖励 。 

逻辑 (logic) : 基于 结果 仅 为 真 或 假 的 假设 的 数学 推断 。 数 学 家 
用 逻辑 来 证 明定 理 。 


机 器 学 习 (machine learning) : 计算 机 科学 的 一 个 分 支 学 科 ， 
让 计算 机 从 数据 中 学 习 如 何 完成 任务 ， 而 不 对 其 提供 明确 的 程序 设 
Te 

毫秒 (millisecond) : 一 秒 的 千 分 之 一 (0.001 秒 ) ， 即 一 千 赫 效 
音调 的 一 个 周期 

大 规模 开放 式 在 线 课 程 (massive open online course , 
MOOC) : 互联 网 上 各 色 主 题 的 免费 课程 。 第 一 门 MOOC 诞 生 于 2006 
年 ， 到 2018 年 1 月 ， 网 上 大 约 有 9400 门 不 同 的 MOOC， 拥 有 约 9100 万 学 
习 者 。 

神经 元 (neuron) : 一 种 特异 化 的 大 脑 细 胞 ， 整 合 其 他 神经 元 的 
输出 作为 输入 ， 并 将 输出 信号 传递 给 其 他 神经 元 。 

归 一 化 (normalization) : 将 信号 的 振幅 稳定 在 国定 范围 内 。 一 
种 将 随时 间 变 化 的 正 值 信号 进行 标准 化 的 方式 ， 即 用 该 信号 除 以 其 目 
身 的 最 大 值 ， 使 归 一 化 的 信号 被 限定 在 0O 和 1 之 间 。 

优化 (optimization) : 从 提供 的 输入 集合 中 系统 地 选取 输入 值 
的 过 程 ， 以 找到 函数 的 最 大 或 最 小 输出 值 。 


过 度 拟 合 (overfitting) : 当 一 个 网 络 模型 中 可 调整 参数 的 数量 
远大 于 训练 数据 的 数量 ， 并 且 该 算法 使 用 了 过 多 参数 来 匹配 这 些 样本 
时 ， 经 过 训练 的 学 习 算法 所 达到 的 状态 。 虽 然 过 度 拟 合 大 大 降低 了 网 
络 适应 新 样本 的 能 力 ， 但 可 以 通过 正则 化 来 降低 这 种 负面 影响 。 

感知 器 (perceptron) : 一 个 简单 的 神经 网 络 模 型 ， 由 一 个 神经 
元 和 一 系列 带 有 可 变 权 重 的 输入 组 成 ， 可 以 通过 训练 来 对 输入 进行 分 
类 o 


可 塑性 (plasticity) : 神经 元 对 其 功能 的 改变 ， 如 连接 强度 的 改 
变 (“ 突 触 可 塑性 *) ， 或 对 其 输入 的 响应 | 本 征 可 塑性 ” (intrinsic 
plasticity) | 。 


概率 分 布 (probability distribution) : 指定 了 实验 中 系统 或 结 
的 所 有 可 能 状态 发 生 的 概率 的 函数 。 


循环 网 络 (recurrent network) : 拥有 反馈 连接 ， 人 允许 信号 在 其 
中 循环 流动 的 神经 网 络 。 


正则 化 (regularization) : 在 训练 数据 有 限 的 情况 下 ， 防 止 具有 
许多 参数 的 网 络 模型 发 生 过 度 拟 合 的 方法 。 例 如 权重 衰减 ， 即 网 络 中 
所 有 的 权 值 在 训练 的 每 个 周期 都 会 减 小 ， 只 有 具有 较 大 正 梯度 的 权 值 
被 保留 。 

缩放 性 (scaling) : 对 算法 的 复杂 程度 如 何 随 着 问题 的 大 小 而 变 
化 的 判断 标准 。 例 如 ，n 个 数 相 加 的 复杂 度 缩放 性 为 n， 但 是 n 个 数 所 有 
两 数 配 对 相 乘 的 复杂 上 度 缩放 性 为 n” 。 


FT)” (skunk works) : 一 个 小 组 在 某 个 组 织 内 以 高 度 自治 
的 方式 从 事 高 级 别 或 秘密 项 目 。 借 鉴 了 漫画 作品 《从 林 小 子 》 (Lil 
Abner) 中 月 光 工 厂 的 名 称 。 


稀疏 原理 (sparsity principle) : 对 信号 的 稀疏 表征 ， 如 脑 电 图 
(EEG) 和 功能 磁 共 振 成 像 (fMRD ， 用 少量 固定 基 画 数 的 加 权 和 来 
近似 信号 。 这 些 基 画 数 在 独立 分 量 分析 (independent component 
analysis) 中 被 称 为 信 源 。 在 一 组 神经 元 中 ， 对 一 个 输入 的 稀疏 表征 是 
指 只 有 少数 神经 元 高 度 活跃 的 情况 。 这 可 以 减少 来 自 表 示 其 他 输入 的 
活动 模式 的 干扰 。 

WRD (spine) : 神经 元 树 突 上 的 刺 琼 状 膜 突 ， 充 当 突 触 的 突 触 
后 部 位 。 

突 触 (synapse) : 两 个 神经 元 之 间 的 特异 化 连接 部 位 ， 信 号 从 
突 触 前 神经 元 传递 到 突 触 后 神经 元 。 


训练 和 测试 集 (training and test sets) : 基于 训练 集 的 表现 并 不 
能 很 好 地 评估 神经 网 络 在 新 输入 上 执行 的 效果 ， 但 训练 期 间 未 使 用 的 


测试 集 则 可 以 对 网 络 性 能 进行 评估 。 当 数据 集合 很 小 时 ， 可 以 使 用 训 
练 集 之 外 的 单个 样本 ， 对 使 用 其 余 样 本 进行 训练 的 网 络 进行 性 能 测 
试 ， 并 且 对 每 个 样本 重复 该 过 程 以 获得 平均 测试 性 能 。 这 是 n=1 时 的 
交叉 验证 的 特例 ， 其 中 n 个 子 样本 被 保留 作为 测试 集 而 非 训 练 集 。 

图 灵机 (Turing machine) : 由 阿兰 .图 灵 于 1937 年 发 明 的 一 种 假 
想 的 ， 可 以 用 来 做 数学 计算 的 简单 计算 机 模型 。 图 灵机 包括 一 个 可 以 
前 后 移动 的 “磁带 ”， 人 磁带 被 划分 为 一 个 接 一 个 的 单元 ， 一 个 具有 “ 状 
态 ” 的 “磁头 ”， 可 以 改变 其 下 活动 单元 的 属性 ， 以 及 一 套 关 于 位 头 如 何 
修改 活动 单元 格 并 移动 磁带 的 指令 。 在 每 个 步骤 中 ， 机 硕 可 以 修改 活 
动 单元 格 的 属性 并 更 改 人 磁头 的 状态 ， 之 后 再 将 磁带 移动 一 个 单元 。 
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